11 подписчиков

GPT-5.1 в API: новый стандарт для агентных сценариев и разработки кода

19 ноября 202519 ноя 2025

6 мин

OpenAI представила GPT-5.1 в API — следующую модель серии GPT-5, которая должна стать базовым выбором и для “обычных” задач, и для сложных агентных сценариев и разработки. Модель сочетает улучшенный интеллект, адаптивное время размышления и новые инструменты для работы с кодом. Ниже — обзор ключевых нововведений и практические выводы для разработчиков. Главное изменение в GPT-5.1 — то, как модель тратит токены на размышление. По данным OpenAI и партнёров: Для разработчика это означает: Вместе с GPT-5.1 появился новый режим работы — reasoning_effort = 'none'. Что он делает: По данным early adopters, на reasoning_effort='none': Рекомендации по выбору режима: По умолчанию GPT-5.1 в API работает именно в режиме reasoning_effort = 'none'. В GPT-5.1 расширили механизм prompt caching: Ключевые моменты: Где это особенно полезно: GPT-5.1 продолжает линию GPT-5 как “рабочей лошади” для разработчиков, но фокус – на более управляемом и предсказуемом поведении: Ряд компаний, специализирующихся н

Оглавление

1. Адаптивное рассуждение: больше “думать”, когда это действительно нужно
2. Новый режим reasoning_effort = 'none': быстрый путь без “тяжёлого” reasoning
3. Расширенный prompt caching: контекст до 24 часов и −90% к стоимости входа

Ниже — обзор ключевых нововведений и практические выводы для разработчиков.

1. Адаптивное рассуждение: больше “думать”, когда это действительно нужно

Главное изменение в GPT-5.1 — то, как модель тратит токены на размышление.

На простых запросах GPT-5.1 почти не “разгоняется”: тратит меньше токенов на reasoning и отвечает заметно быстрее.
На сложных задачах (агенты, многошаговая логика, сложный код) модель, наоборот, готова думать дольше и тщательнее проверять себя.

По данным OpenAI и партнёров:

В ряде реальных задач GPT-5.1 работает в 2–3 раза быстрее GPT-5, при этом сохраняя или повышая качество.
На сложных, “инструментальных” сценариях GPT-5.1 использует примерно вдвое меньше токенов, чем конкуренты схожего уровня качества.

Для разработчика это означает:

меньшие задержки в простых сценариях (чат-боты, быстрые подсказки, и т.п.);
меньше “лишнего” reasoning там, где он не нужен;
больше устойчивости и глубины на задачах, где важнее не скорость, а правильный результат (агенты, сложный рефакторинг, многошаговые рабочие процессы).

2. Новый режим reasoning_effort = 'none': быстрый путь без “тяжёлого” reasoning

Вместе с GPT-5.1 появился новый режим работы — reasoning_effort = 'none'.

Что он делает:

модель ведёт себя как “нерезонирующая” (аналог классических GPT-4.1 / GPT-4o-стиля),
при этом сохраняет интеллект и инструментарий GPT-5.1: улучшенный tool-calling, работу с веб-поиском (в API), более точное следование инструкциям.

По данным early adopters, на reasoning_effort='none':

до +20% ускорения низко-латентных сценариев с tool-calling относительно GPT-5 в режиме minimal reasoning;
лучшая параллельная работа с инструментами, более предсказуемое поведение в продакшене.

Рекомендации по выбору режима:

none — для latency-чувствительных задач: чат-боты, быстрый Q&A, простые действия с инструментами.
low / medium — для задач средней сложности, где важен баланс скорости и глубины.
high — для критичных задач: сложный код, агенты, бизнес-критичные сценарии, где важнее качество, чем скорость.

По умолчанию GPT-5.1 в API работает именно в режиме reasoning_effort = 'none'.

3. Расширенный prompt caching: контекст до 24 часов и −90% к стоимости входа

В GPT-5.1 расширили механизм prompt caching:

контекст теперь может жить в кэше до 24 часов (раньше — минуты);
повторные запросы с тем же куском контекста используют кэш, что снижает и задержку, и стоимость.

Ключевые моменты:

Входные токены, идущие из prompt cache, примерно на 90% дешевле, чем обычные.
За запись в кэш и хранение отдельно платить не нужно.
Включается флагом prompt_cache_retention='24h' в Responses или Chat Completions API.

Где это особенно полезно:

долгие сессии: личные ассистенты, бизнес-агенты, консультанты;
IDE-интеграции и код-ассистенты, где проект целиком часто пробрасывается в контекст;
knowledge-боты и RAG-сценарии с тяжёлым системным промптом.

4. Улучшения для кодинга: фронтенд, дифы, PR-ревью

GPT-5.1 продолжает линию GPT-5 как “рабочей лошади” для разработчиков, но фокус – на более управляемом и предсказуемом поведении:

более “управляемая” coding-личность (steerability): модель легче подстраивается под стиль, ограничения и формат;
меньше избыточных действий и “overthinking” в процессе разработки;
лучшее качество кода по метрикам (например, 76,3% на SWE-bench Verified против 72,8% у GPT-5);
более понятные промежуточные сообщения для пользователя при использовании tool-calling (план, прогресс, что уже сделано);
более функциональные и “реальные” фронтенд-решения, особенно при низком reasoning_effort.

Ряд компаний, специализирующихся на dev-инструментах (Cursor, Cognition, Augment Code, Factory, Warp и др.), уже отметили:

меньше “лишних” действий;
более точные дифы;
более качественные PR-ревью;
более предсказуемое поведение в многофайловых, долгих задачах.

5. Новые инструменты: apply_patch и shell в Responses API

Вместе с моделью появляются два новых инструмента, которые нацелены именно на агентные сценарии и работу с кодом.

5.1. apply_patch: дифы как первая сущность

apply_patch — инструмент, позволяющий модели:

создавать, изменять и удалять файлы в кодовой базе через структурированные дифы;
работать не “текстом отдыха”, а конкретными patch-операциями, которые ваша система применяет и возвращает результат.

Использование:

добавляете в tools объект { "type": "apply_patch" };
либо передаёте содержимое файлов, либо даёте модели отдельные инструменты для чтения файловой системы;
модель генерирует apply_patch_call с дифами, вы их применяете и в следующем запросе возвращаете результат.

Практически это упрощает:

многошаговые рефакторинги;
обновление нескольких файлов за один сеанс;
повторный прогон и исправление ошибок на основе фидбэка тестов.

5.2. shell: контролируемый доступ к командной строке

shell позволяет модели работать с локальной системой через контролируемый CLI-слой:

модель предлагает shell-команды;
интеграция разработчика исполняет их в своей среде;
выход команд передаётся обратно модели в shell_call_output.

Таким образом, получается простой цикл:

Модель планирует действия.
Генерирует команды.
Получает результаты.
Итеративно двигается к цели (сборка, тесты, утилиты, проверки).

Это важный шаг к более автономным, но всё ещё контролируемым агентам.

6. Линейка моделей: GPT-5.1 и Codex-варианты

С запуском GPT-5.1 OpenAI обновила линейку моделей для разработчиков:

GPT-5.1 / gpt-5.1-chat-latest
Базовая рекомендованная модель для текстовых и кодинговых задач, доступна на всех платных тарифах.
Цена в API — такая же, как у GPT-5 (порядка $1,25 за 1M входных токенов и $10 за 1M выходных, с 10-кратной скидкой на кэшированные входы).
gpt-5.1-codex
Специализированная версия для долгих, агентных coding-задач в Codex и подобных окружениях. Оптимизирована под многошаговые пайплайны, большой объём изменений и глубокий анализ кодовой базы.
gpt-5.1-codex-mini
Урезанная, но более дешёвая версия GPT-5.1-Codex:
хороша для массовых, недорогих изменений — быстрых правок, авто-форматирования, локальных рефакторингов.

Важно: лимиты и цены GPT-5.1 в API совпадают с GPT-5, что упрощает миграцию с точки зрения бюджета и конфигурации.

7. Стоит ли переходить на GPT-5.1 и что делать дальше

OpenAI прямо рекомендует:

тестировать GPT-5.1 на coding-сценариях;
рассмотреть переход с GPT-4.1 на GPT-5.1 в режиме reasoning_effort='none' для быстрых, массовых задач общего назначения.

Практически шаги могут быть такими:

Добавить GPT-5.1 как экспериментальную модель в существующие сервисы (A/B-тест, часть пользователей, отдельная фича).
Для API-клиентов:
переключить часть запросов с GPT-4.1/GPT-5 на GPT-5.1 с reasoning_effort='none';
для сложных агентов/кода — использовать low/medium/high и новые инструменты apply_patch и shell.
Включить extended prompt caching для сценариев с длинными промптами или долгими сессиями.
Для чисто кодинговых задач, особенно в Codex/IDE:
использовать gpt-5.1-codex для тяжёлых задач;
gpt-5.1-codex-mini — для массовых мелких правок, дешёвых автодополнений.

С учётом одинаковой цены с GPT-5 и ощутимых улучшений по скорости и качеству, GPT-5.1 выглядит как естественный “новый дефолт” для большинства API-сценариев — от чат-ботов до production-агентов и сложных IDE-интеграций.