23 подписчика

OpenAI снова выкатывает апгрейд — встречайте o3 и o4-mini, модели, которые снова смещают границы того, что может AI

16 апреля 202516 апр 2025

1 мин

OpenAI снова выкатывает апгрейд — встречайте o3 и o4-mini, модели, которые снова смещают границы того, что может AI. Сначала про o3. Это новый «топ» линейки: модель, которая мыслит глубже, точнее и системнее. Сравнивая с предыдущим флагманом o1, показатели на бенчмарках ощутимо подросли: GPQA Diamond уже на 87.7% (было 78%), на SWE-bench Verified — 71.7% вместо прежних 48.9%. А рейтинг Elo на Codeforces теперь вообще 2727 против старых 1891. Модель впервые осмысленно «смотрит» на изображения: масштабирует, обрезает и ведёт логику одновременно по тексту и картинкам. Если поставить рядом Gemini 2.5 Pro — текущего лидера от Google — o3 показывает себя как серьёзный соперник. Теперь про o4-mini. Эта модель — про скорость и эффективность. Заметно легче, быстрее и дешевле, чем o1, при этом сохраняет близкий уровень качества на большинстве задач. Особенно подходит для массовых сценариев: чат-ботов, помощников в CI или API для высоких нагрузок. Стоимость при этом почти «копеечная»: вход $1.

OpenAI снова выкатывает апгрейд — встречайте o3 и o4-mini, модели, которые снова смещают границы того, что может AI.

Сначала про o3.

Это новый «топ» линейки: модель, которая мыслит глубже, точнее и системнее. Сравнивая с предыдущим флагманом o1, показатели на бенчмарках ощутимо подросли: GPQA Diamond уже на 87.7% (было 78%), на SWE-bench Verified — 71.7% вместо прежних 48.9%. А рейтинг Elo на Codeforces теперь вообще 2727 против старых 1891. Модель впервые осмысленно «смотрит» на изображения: масштабирует, обрезает и ведёт логику одновременно по тексту и картинкам.

Если поставить рядом Gemini 2.5 Pro — текущего лидера от Google — o3 показывает себя как серьёзный соперник.

Теперь про o4-mini.

Эта модель — про скорость и эффективность. Заметно легче, быстрее и дешевле, чем o1, при этом сохраняет близкий уровень качества на большинстве задач. Особенно подходит для массовых сценариев: чат-ботов, помощников в CI или API для высоких нагрузок. Стоимость при этом почти «копеечная»: вход $1.10 за миллион токенов, выход — $4.40.

Что с API?

OpenAI уже обновили Chat Completions и Responses API — доступ есть прямо сейчас через ChatGPT Plus, Pro и Team. Новые API учитывают внутренние шаги рассуждений и даже сохраняют промежуточные состояния между запросами, что круто прокачивает агентные сценарии.

Процесс рассуждений — это отдельная тема. Теперь модель не просто думает, а буквально «ходит» по цепочке логики, выбирая инструменты, шаги и подходы. Эдакий DeepResearch на минималках: когда модель сама решает, куда пойти дальше, какой инструмент вызвать, и как лучше ответить на запрос.

Кажется, теперь становится ясно, что просто отвечать на вопросы — уже прошлый век. OpenAI метит на полноценный reasoning и автоматизацию целых процессов, и это впечатляет.

В общем, AI снова сделал шаг вперёд, и мне это нравится.

—

Соавтор поста — ChatGPT