OpenAI снова напомниает о себе и на этот раз - не просто улучшив старую 4о, а выдав новую o3-mini, дав отпор китайским DeepSeek и Alibaba Qwen. Маленькая, но удаленькая модель, специально созданная для тех, кому нужны чёткие решения в математике, программировании и научных вычислениях.
Главное нововведение - возможность «видеть» её цепочку мыслей. Проще говоря, теперь ИИ не просто скажет ответ, но и покажет, КАК он к нему пришёл.
Сразу скажем: выглядит всё очень привлекательно, ведь прозрачное последовательное рассуждение помогает понять логику модели. Особенно если нужно разобрать сложную задачу по шагам и быть уверенным, что ИИ не «от балды» что-то выдал.
Кроме того, понимая цепочку мыслей и видя как думает модель, проще "влезть" в процесс ее мышления и поправить логику рассуждений точечным промтом.
Быстрее, точнее и экономичнее
По заявлениям разработчиков, o3-mini ускорилась на 24 % по сравнению со старой o1: если раньше на ответ уходило около 10 секунд, теперь в среднем 7–8. Кажется, пустяк, и для легких запросов так оно и есть. Но когда нужно запустить сложный алгоритм или обработать гору данных, каждая лишняя секунда ожидания становится обременительной.
Плюс модель обещает выдавать более аккуратные результаты именно в технических областях: высшая математика, написание кода, научные расчёты - всё это теперь должно идти быстрее и логичнее.
Сказать, что новинка стала драматически умнее в сравнении с o1 не получится. В бенчмарках она выходит вперед, но не сильно (см. сравнительные диаграммы). Особенно отстает о3 mini (Low). В бенчмарке на простые вопросы-ответы так и вовсе DeepSeek в лидерах.
Как и в стоимости. Новая модель Open AI намного дешевле своих предшественников в обучении, но все еще дороже китайских аналогов.
Три режима: какой выбрать?
Чтобы не нагружать пользователей кучей настроек, OpenAI предложила три ступени «глубины» размышлений.
- Низкая (low) - если нужна максимально быстрая реакция.
- Средняя (medium) — вариант по умолчанию, в котором модель старается балансировать между скоростью и точностью.
- Высокая (high) - если вы фанат докапываться до мельчайших деталей. Он медленнее, но позволяет ИИ вгрызаться в задачу как следует и выдавать более детальный анализ.
Умеет искать и ссылаться
Особенно приятно, что в o3-mini завезли функцию поиска в сети сразу со старта. Модель обучена на данных за период до июня 2024 года, однако если нужны самые свежие данные или актуальные уточнения, модель может выходить в интернет и выдавать ссылки на источники. Так что проверка фактов и нахождение актуальной инфы не будет вызывать затруднений.
Всё это доступно не только через ChatGPT, но и по API — хоть пока доступ ограничен, если верить некоторым разработчикам.
Есть и минусы: возможность работы с вложениями пока недоступна. Функция Canvas - тоже. Но, будем надеяться, что и ее скоро внедрят, как в свое время внедрили для всех предыдущих моделей.
Дела важнее слов
Звучит все это впечатляюще. Но как всегда, реальность покажут реальные тесты. Иногда нужно быстро получить ответ на элементарный вопрос, и тут прозрачные цепочки рассуждений могут только замедлить. В случаях, когда надо проанализировать сложную математическую модель или выстроить структуру программы, способность ИИ показать свою «кухню» оказывается бесценной.
Впечатляет и то, что o3-mini успешно тянет сложные STEM-задачи (наука, технологии, инженерия и математика) на приличном уровне. Если вы пишете код, решаете уравнения или работаете с научными выкладками - самое время погонять о3-mini на парочке своих задач и посмотреть, справится ли она. Именно в таких ситуациях становится понятно, насколько она реально полезна.
Стоит ли пробовать?
Уже сейчас модель доступна всем пользователям для использования. На фоне конкуренции с китайскими open-source моделями Сэм Альтман даже увеличил лимиты: 150 запросов в сутки для Plus-подписчиков, безлимит для Pro-бояр. "Бесплатникам" модель тоже доступна, но лимиты по-скромнее. Причины такой щедрости понятны: китайцы нервно дышат в затылок своими бесплатными моделями, а их мощность идет почти наравне с детищем Open AI. Что поделать, рынок "решает".
Что, впрочем, замечательно. От такой конкуренции конечные пользователи только выигрывают.
В общем, модель свежая, возможностей много, а отзывы от первых пользователей обнадёживают. Надумаете тестить, обязательно поделись впечатлениями в комментах - ведь как ни крути, реальные кейсы обычно красноречивее любой рекламы.