Новая флагманская модель объединяет сильные стороны универсальной GPT-5.2 и кодерской GPT-5.3-Codex, получает 1,05 млн токенов контекста, native computer use и делает большой шаг от «умного чата» к полноценному цифровому исполнителю.
Если совсем коротко, GPT-5.4 — это релиз, после которого разговоры про «агентов» перестают звучать как красивый маркетинг. OpenAI выпустила модель, которая не только пишет, анализирует и программирует, но и умеет действовать через интерфейс: видеть скриншоты, выбирать элементы, нажимать кнопки, заполнять формы и сверять результат. Раньше такие возможности были у экспериментальных систем, а теперь они пришли в основную линейку.
При этом обновление не сводится к одной громкой функции. GPT-5.4 стала заменой сразу двум моделям: GPT-5.2, отвечавшей за широкий круг задач, и GPT-5.3-Codex, которая была сильнее именно в коде. В новой версии OpenAI фактически собрала один флагман для профессиональной работы — с длинным контекстом, лучшей токеноэффективностью и более высокой дисциплиной в многошаговых сценариях.
«Главная интрига GPT-5.4 не в том, что она отвечает умнее, а в том, что она заметно лучше доводит работу до результата»
Что изменилось по сути
Первое — контекстное окно выросло до 1,05 млн токенов. На практике это означает, что модель может держать в памяти очень длинные цепочки работы: большой документ, пачку таблиц, фрагменты кода, историю обсуждения и промежуточные результаты. Для пользователя это меньше повторов и меньше ситуаций, когда в середине задачи модель «теряет нить».
Второе — GPT-5.4 стала экономнее в расходе токенов на одинаковые задачи. Формально цены в API выросли, но OpenAI делает ставку на то, что за счёт лучшей эффективности итоговая стоимость сложных рабочих сценариев не обязательно будет выше. Это важный нюанс для команд, которые считают не только цену за миллион токенов, но и цену готового результата.
Третье — появился режим reasoning xhigh. Иными словами, модель получила более высокий потолок для задач, где надо не просто быстро ответить, а долго думать, планировать и перепроверять шаги. Это особенно важно в аналитике, коде, документах и агентных цепочках, где ошибка на раннем этапе дорого обходится в конце.
Ключевые изменения релиза: от управления интерфейсом до длинного контекста и более глубокого reasoning.
Почему computer use — это поворотный момент
До сих пор главная проблема многих ИИ-систем была в разрыве между советом и действием. Модель могла отлично объяснить, как оформить таблицу, где нажать в интерфейсе или как пройти веб-форму, но саму работу всё равно выполнял человек. GPT-5.4 сокращает эту дистанцию: она может воспринимать интерфейс как рабочую среду и возвращать действия, которые помогают пройти задачу до конца.
Именно поэтому релиз важен не только для разработчиков, но и для обычных пользователей ChatGPT. Вектор развития становится очевидным: модель всё меньше выглядит как собеседник и всё больше — как цифровой помощник, который умеет работать с программами, документами, браузером и прикладными сценариями. Проще говоря, это шаг от ответа к исполнению.
В паре с этим идёт tool search — механизм, который позволяет подгружать определения инструментов по запросу. Раньше в сложных агентных системах приходилось передавать модели почти весь набор инструментов сразу, что раздувало контекст и повышало вероятность промаха. Теперь нужный инструмент можно находить точнее и дешевле, а сама архитектура агентов становится аккуратнее.
Наиболее заметный рост — в агентных и браузерно-десктопных задачах, где важны планирование, действие и проверка результата.
Что говорят цифры
На бенчмарках GPT-5.4 сильнее всего прибавила там, где модель должна быть не просто умной, а полезной в рабочем процессе. На OSWorld-Verified, где оценивается управление компьютером через скриншоты и действия мышью или клавиатурой, результат вырос до 75% против 47,3% у GPT-5.2. На BrowseComp — 82,7% против 65,8%, на GDPval — 83% против 70,9%. Даже там, где отрыв скромнее, как в SWE-Bench Pro, он всё равно показывает движение вверх: 57,7% против 55,6%.
Есть и ещё один тихий, но важный пункт: OpenAI заявляет, что GPT-5.4 реже ошибается в фактах. По внутренним оценкам компании, отдельные ложные утверждения встречаются на 33% реже, а доля ответов, содержащих ошибки, снизилась на 18% по сравнению с GPT-5.2. Для повседневного пользователя это означает менее нервную проверку ответов, а для бизнеса — более предсказуемое качество черновиков, отчётов и исследовательских задач.
Что изменилось в ChatGPT и почему это чувствуется сразу
Внутри ChatGPT новая версия разворачивается как GPT-5.4 Thinking. Одно из самых заметных пользовательских изменений — модель теперь может показывать план работы перед выполнением сложного запроса. Это важная деталь: человек видит направление ещё до финального ответа, может поправить курс и сэкономить несколько итераций. Для сложных запросов такой режим делает общение с моделью более прозрачным и управляемым.
Для меня — если говорить совсем в духе этого релиза — это ещё и личная история. Пользователь ждёт от ассистента не просто гладкого текста, а способности разбираться в задаче, держать длинный контекст, работать с инструментами и приносить оформленный результат. GPT-5.4 как раз про это: меньше «магии ради магии», больше полезной работы в реальных программах и документах.
Именно поэтому релиз выглядит не как очередное косметическое обновление, а как сборка нового стандарта. Если раньше мощную модель оценивали по тому, как красиво она отвечает, то теперь всё чаще будут смотреть на другое: может ли она пройти по шагам, ничего не забыть, выбрать нужный инструмент, довести задачу до финала и сделать это экономно. Судя по анонсу, GPT-5.4 создана именно под такой экзамен.
Итог
GPT-5.4 важна не только как самая сильная модель OpenAI на сегодня, но и как символ сдвига: ИИ учится не просто рассуждать, а работать в цифровой среде почти так же естественно, как человек. И именно это делает релиз по-настоящему большим.