88,4 тыс подписчиков

Анализ картинок и передовая мощь. Что умеют модели o3 и o4-mini от OpenAI?

18 апреля 202518 апр 2025

2 мин

OpenAI пополнила линейку рассуждающих ИИ, представив o3 и o4-mini. Их научили применять все доступные в ChatGPT инструменты, а по бенчмаркам новинки лидируют. Оцениваем возможности нейронок, а также их плюсы и минусы в реальных сценариях. Главное новшество — поддержка в моделях о-семейства всех агентных функций сайта, включая поиск в сети, распознавание изображений, исполнение Python-кода и память о чатах. Раньше всё это умела только GPT-4o, но теперь решения встроены и в механизм рассуждений. Его принцип остался неизменен: больше времени и ресурсов выделяют на продумывание ответа, что теоретически даёт прирост в сложных задачах. Флагманская o3 опередила Gemini 2.5 Pro по многим метрикам (кодинг, математика, визуальные задания, наука). Например, в Aider Bench, оценивающем качество кода, o3-high демонстрирует 81,3% точности против 72,9% у варианта Google. Миниатюрная o4-mini ориентирована на эффективность и выдаёт отличные результаты для своих размеров. В указанном тесте она набирает 68

Оглавление

Что изменилось
Нюансы на практике

Что изменилось

Главное новшество — поддержка в моделях о-семейства всех агентных функций сайта, включая поиск в сети, распознавание изображений, исполнение Python-кода и память о чатах. Раньше всё это умела только GPT-4o, но теперь решения встроены и в механизм рассуждений. Его принцип остался неизменен: больше времени и ресурсов выделяют на продумывание ответа, что теоретически даёт прирост в сложных задачах.

Флагманская o3 опередила Gemini 2.5 Pro по многим метрикам (кодинг, математика, визуальные задания, наука). Например, в Aider Bench, оценивающем качество кода, o3-high демонстрирует 81,3% точности против 72,9% у варианта Google. Миниатюрная o4-mini ориентирована на эффективность и выдаёт отличные результаты для своих размеров. В указанном тесте она набирает 68,9%.

Уникальный навык новых ИИ — извлечение полезных данных из почти любых картинок, будь они в плохом качестве, перевёрнуты или размыты. Можно загружать грубые наброски, диаграммы с белой доски и прочие иллюстрации с изъянами — детальность, с которой o3 способна считывать визуальное содержимое, пока не имеет аналогов. Генерировать графики и рисунки нейросеть тоже умеет. Ответы стали более персонализированными и естественными, в том числе за счёт подключения памяти ChatGPT.

Нюансы на практике

Стоит учитывать, что даже самые лучшие «думающие» модели не лишены недостатков, проистекающих как раз из процесса размышлений. Цепочка мыслей (CoT) предназначена для самопроверки информации и выстраивания решения проблемы шаг за шагом. Это действительно может быть полезно в математике, программировании и других непростых задачах. Однако такой принцип работы не устраняет галлюцинации полностью. Напротив, как отметил эксперт канала CRAI, ИИ иногда зацикливается на аргументации изначально неверного вывода.

Подобное подметили и в случае с o3, которая часто придумывает множество объяснений, почему она права, даже когда ошибается. В остальном же, судя по первым тестам, модели получились удачными и соответствуют заявленному. К примеру, ассистент смог найти нестандартное решение для сложного интеграла и пересчитать все корабли на большом фото. Другая необычная опция — определение точной локации снимка. Путём анализа всех видимых фрагментов выдаётся адрес, где был создан тот или иной кадр. Тренд, конечно, вызывает опасения по поводу приватности, поэтому наверняка эту лазейку прикроют апдейтом.

Гаджеты и электроника

5,73 млн интересуются