Найти в Дзене
AI-лаборатория

OpenAI представила o3-mini: маленькая модель с большими амбициями

Оглавление
Дождались!
Дождались!

OpenAI снова напомниает о себе и на этот раз - не просто улучшив старую 4о, а выдав новую o3-mini, дав отпор китайским DeepSeek и Alibaba Qwen. Маленькая, но удаленькая модель, специально созданная для тех, кому нужны чёткие решения в математике, программировании и научных вычислениях.

Главное нововведение - возможность «видеть» её цепочку мыслей. Проще говоря, теперь ИИ не просто скажет ответ, но и покажет, КАК он к нему пришёл.

Сразу скажем: выглядит всё очень привлекательно, ведь прозрачное последовательное рассуждение помогает понять логику модели. Особенно если нужно разобрать сложную задачу по шагам и быть уверенным, что ИИ не «от балды» что-то выдал.

Кроме того, понимая цепочку мыслей и видя как думает модель, проще "влезть" в процесс ее мышления и поправить логику рассуждений точечным промтом.

Быстрее, точнее и экономичнее

Сравнительный анализ моделей ChatGPT в математике...
Сравнительный анализ моделей ChatGPT в математике...

По заявлениям разработчиков, o3-mini ускорилась на 24 % по сравнению со старой o1: если раньше на ответ уходило около 10 секунд, теперь в среднем 7–8. Кажется, пустяк, и для легких запросов так оно и есть. Но когда нужно запустить сложный алгоритм или обработать гору данных, каждая лишняя секунда ожидания становится обременительной.

Плюс модель обещает выдавать более аккуратные результаты именно в технических областях: высшая математика, написание кода, научные расчёты - всё это теперь должно идти быстрее и логичнее.

Сказать, что новинка стала драматически умнее в сравнении с o1 не получится. В бенчмарках она выходит вперед, но не сильно (см. сравнительные диаграммы). Особенно отстает о3 mini (Low). В бенчмарке на простые вопросы-ответы так и вовсе DeepSeek в лидерах.

Как и в стоимости. Новая модель Open AI намного дешевле своих предшественников в обучении, но все еще дороже китайских аналогов.

Три режима: какой выбрать?

...в анализе научных данных...
...в анализе научных данных...

Чтобы не нагружать пользователей кучей настроек, OpenAI предложила три ступени «глубины» размышлений.

  • Низкая (low) - если нужна максимально быстрая реакция.
  • Средняя (medium) — вариант по умолчанию, в котором модель старается балансировать между скоростью и точностью.
  • Высокая (high) - если вы фанат докапываться до мельчайших деталей. Он медленнее, но позволяет ИИ вгрызаться в задачу как следует и выдавать более детальный анализ.

Умеет искать и ссылаться

...в программировании.
...в программировании.

Особенно приятно, что в o3-mini завезли функцию поиска в сети сразу со старта. Модель обучена на данных за период до июня 2024 года, однако если нужны самые свежие данные или актуальные уточнения, модель может выходить в интернет и выдавать ссылки на источники. Так что проверка фактов и нахождение актуальной инфы не будет вызывать затруднений.

Всё это доступно не только через ChatGPT, но и по API — хоть пока доступ ограничен, если верить некоторым разработчикам.

Есть и минусы: возможность работы с вложениями пока недоступна. Функция Canvas - тоже. Но, будем надеяться, что и ее скоро внедрят, как в свое время внедрили для всех предыдущих моделей.

Дела важнее слов

Еще один сравнительный тест на понимание языка
Еще один сравнительный тест на понимание языка

Звучит все это впечатляюще. Но как всегда, реальность покажут реальные тесты. Иногда нужно быстро получить ответ на элементарный вопрос, и тут прозрачные цепочки рассуждений могут только замедлить. В случаях, когда надо проанализировать сложную математическую модель или выстроить структуру программы, способность ИИ показать свою «кухню» оказывается бесценной.

Впечатляет и то, что o3-mini успешно тянет сложные STEM-задачи (наука, технологии, инженерия и математика) на приличном уровне. Если вы пишете код, решаете уравнения или работаете с научными выкладками - самое время погонять о3-mini на парочке своих задач и посмотреть, справится ли она. Именно в таких ситуациях становится понятно, насколько она реально полезна.

Стоит ли пробовать?

-6

Уже сейчас модель доступна всем пользователям для использования. На фоне конкуренции с китайскими open-source моделями Сэм Альтман даже увеличил лимиты: 150 запросов в сутки для Plus-подписчиков, безлимит для Pro-бояр. "Бесплатникам" модель тоже доступна, но лимиты по-скромнее. Причины такой щедрости понятны: китайцы нервно дышат в затылок своими бесплатными моделями, а их мощность идет почти наравне с детищем Open AI. Что поделать, рынок "решает".

Что, впрочем, замечательно. От такой конкуренции конечные пользователи только выигрывают.

В общем, модель свежая, возможностей много, а отзывы от первых пользователей обнадёживают. Надумаете тестить, обязательно поделись впечатлениями в комментах - ведь как ни крути, реальные кейсы обычно красноречивее любой рекламы.