OpenAI представила GPT-5.1 в API — следующую модель серии GPT-5, которая должна стать базовым выбором и для “обычных” задач, и для сложных агентных сценариев и разработки. Модель сочетает улучшенный интеллект, адаптивное время размышления и новые инструменты для работы с кодом.
Ниже — обзор ключевых нововведений и практические выводы для разработчиков.
1. Адаптивное рассуждение: больше “думать”, когда это действительно нужно
Главное изменение в GPT-5.1 — то, как модель тратит токены на размышление.
- На простых запросах GPT-5.1 почти не “разгоняется”: тратит меньше токенов на reasoning и отвечает заметно быстрее.
- На сложных задачах (агенты, многошаговая логика, сложный код) модель, наоборот, готова думать дольше и тщательнее проверять себя.
По данным OpenAI и партнёров:
- В ряде реальных задач GPT-5.1 работает в 2–3 раза быстрее GPT-5, при этом сохраняя или повышая качество.
- На сложных, “инструментальных” сценариях GPT-5.1 использует примерно вдвое меньше токенов, чем конкуренты схожего уровня качества.
Для разработчика это означает:
- меньшие задержки в простых сценариях (чат-боты, быстрые подсказки, и т.п.);
- меньше “лишнего” reasoning там, где он не нужен;
- больше устойчивости и глубины на задачах, где важнее не скорость, а правильный результат (агенты, сложный рефакторинг, многошаговые рабочие процессы).
2. Новый режим reasoning_effort = 'none': быстрый путь без “тяжёлого” reasoning
Вместе с GPT-5.1 появился новый режим работы — reasoning_effort = 'none'.
Что он делает:
- модель ведёт себя как “нерезонирующая” (аналог классических GPT-4.1 / GPT-4o-стиля),
- при этом сохраняет интеллект и инструментарий GPT-5.1: улучшенный tool-calling, работу с веб-поиском (в API), более точное следование инструкциям.
По данным early adopters, на reasoning_effort='none':
- до +20% ускорения низко-латентных сценариев с tool-calling относительно GPT-5 в режиме minimal reasoning;
- лучшая параллельная работа с инструментами, более предсказуемое поведение в продакшене.
Рекомендации по выбору режима:
- none — для latency-чувствительных задач: чат-боты, быстрый Q&A, простые действия с инструментами.
- low / medium — для задач средней сложности, где важен баланс скорости и глубины.
- high — для критичных задач: сложный код, агенты, бизнес-критичные сценарии, где важнее качество, чем скорость.
По умолчанию GPT-5.1 в API работает именно в режиме reasoning_effort = 'none'.
3. Расширенный prompt caching: контекст до 24 часов и −90% к стоимости входа
В GPT-5.1 расширили механизм prompt caching:
- контекст теперь может жить в кэше до 24 часов (раньше — минуты);
- повторные запросы с тем же куском контекста используют кэш, что снижает и задержку, и стоимость.
Ключевые моменты:
- Входные токены, идущие из prompt cache, примерно на 90% дешевле, чем обычные.
- За запись в кэш и хранение отдельно платить не нужно.
- Включается флагом prompt_cache_retention='24h' в Responses или Chat Completions API.
Где это особенно полезно:
- долгие сессии: личные ассистенты, бизнес-агенты, консультанты;
- IDE-интеграции и код-ассистенты, где проект целиком часто пробрасывается в контекст;
- knowledge-боты и RAG-сценарии с тяжёлым системным промптом.
4. Улучшения для кодинга: фронтенд, дифы, PR-ревью
GPT-5.1 продолжает линию GPT-5 как “рабочей лошади” для разработчиков, но фокус – на более управляемом и предсказуемом поведении:
- более “управляемая” coding-личность (steerability): модель легче подстраивается под стиль, ограничения и формат;
- меньше избыточных действий и “overthinking” в процессе разработки;
- лучшее качество кода по метрикам (например, 76,3% на SWE-bench Verified против 72,8% у GPT-5);
- более понятные промежуточные сообщения для пользователя при использовании tool-calling (план, прогресс, что уже сделано);
- более функциональные и “реальные” фронтенд-решения, особенно при низком reasoning_effort.
Ряд компаний, специализирующихся на dev-инструментах (Cursor, Cognition, Augment Code, Factory, Warp и др.), уже отметили:
- меньше “лишних” действий;
- более точные дифы;
- более качественные PR-ревью;
- более предсказуемое поведение в многофайловых, долгих задачах.
5. Новые инструменты: apply_patch и shell в Responses API
Вместе с моделью появляются два новых инструмента, которые нацелены именно на агентные сценарии и работу с кодом.
5.1. apply_patch: дифы как первая сущность
apply_patch — инструмент, позволяющий модели:
- создавать, изменять и удалять файлы в кодовой базе через структурированные дифы;
- работать не “текстом отдыха”, а конкретными patch-операциями, которые ваша система применяет и возвращает результат.
Использование:
- добавляете в tools объект { "type": "apply_patch" };
- либо передаёте содержимое файлов, либо даёте модели отдельные инструменты для чтения файловой системы;
- модель генерирует apply_patch_call с дифами, вы их применяете и в следующем запросе возвращаете результат.
Практически это упрощает:
- многошаговые рефакторинги;
- обновление нескольких файлов за один сеанс;
- повторный прогон и исправление ошибок на основе фидбэка тестов.
5.2. shell: контролируемый доступ к командной строке
shell позволяет модели работать с локальной системой через контролируемый CLI-слой:
- модель предлагает shell-команды;
- интеграция разработчика исполняет их в своей среде;
- выход команд передаётся обратно модели в shell_call_output.
Таким образом, получается простой цикл:
- Модель планирует действия.
- Генерирует команды.
- Получает результаты.
- Итеративно двигается к цели (сборка, тесты, утилиты, проверки).
Это важный шаг к более автономным, но всё ещё контролируемым агентам.
6. Линейка моделей: GPT-5.1 и Codex-варианты
С запуском GPT-5.1 OpenAI обновила линейку моделей для разработчиков:
- GPT-5.1 / gpt-5.1-chat-latest
Базовая рекомендованная модель для текстовых и кодинговых задач, доступна на всех платных тарифах.
Цена в API — такая же, как у GPT-5 (порядка $1,25 за 1M входных токенов и $10 за 1M выходных, с 10-кратной скидкой на кэшированные входы). - gpt-5.1-codex
Специализированная версия для долгих, агентных coding-задач в Codex и подобных окружениях. Оптимизирована под многошаговые пайплайны, большой объём изменений и глубокий анализ кодовой базы. - gpt-5.1-codex-mini
Урезанная, но более дешёвая версия GPT-5.1-Codex:
хороша для массовых, недорогих изменений — быстрых правок, авто-форматирования, локальных рефакторингов.
Важно: лимиты и цены GPT-5.1 в API совпадают с GPT-5, что упрощает миграцию с точки зрения бюджета и конфигурации.
7. Стоит ли переходить на GPT-5.1 и что делать дальше
OpenAI прямо рекомендует:
- тестировать GPT-5.1 на coding-сценариях;
- рассмотреть переход с GPT-4.1 на GPT-5.1 в режиме reasoning_effort='none' для быстрых, массовых задач общего назначения.
Практически шаги могут быть такими:
- Добавить GPT-5.1 как экспериментальную модель в существующие сервисы (A/B-тест, часть пользователей, отдельная фича).
- Для API-клиентов:
переключить часть запросов с GPT-4.1/GPT-5 на GPT-5.1 с reasoning_effort='none';
для сложных агентов/кода — использовать low/medium/high и новые инструменты apply_patch и shell. - Включить extended prompt caching для сценариев с длинными промптами или долгими сессиями.
- Для чисто кодинговых задач, особенно в Codex/IDE:
использовать gpt-5.1-codex для тяжёлых задач;
gpt-5.1-codex-mini — для массовых мелких правок, дешёвых автодополнений.
С учётом одинаковой цены с GPT-5 и ощутимых улучшений по скорости и качеству, GPT-5.1 выглядит как естественный “новый дефолт” для большинства API-сценариев — от чат-ботов до production-агентов и сложных IDE-интеграций.