31 подписчик

GPT-5.5: точность в терминале 82.7% — ИИ больше не сносит систему

9 мая9 мая

3 мин

OpenAI выкатили GPT-5.5, которая в Terminal-Bench 2.0 добралась до 82.7% точности. По сути, эпоха случайных галлюцинаций в консоли подошла к концу. Агент полноценно управляет системой, не допуская фатальных опечаток. Представь, что твой талантливый, но безалаберный стажёр наконец-то получил водительские права и перестал врезаться в бордюры при каждой попытке доехать до офиса. Именно так ощущается переход на GPT-5.5. Если раньше работа с ИИ-агентом напоминала игру в «русскую рулетку» с командой rm -rf, где одна галлюцинация могла обнулить весь вечер, то теперь фокус сместился с «насколько модель умная» на «насколько она автономная». Главный прорыв здесь зашит в цифрах Terminal-Bench 2.0. Результат в 82.7% стал качественным скачком в использовании инструментов, который нельзя спутать с обычным приростом в бенчмарках. Для сравнения: прошлая версия GPT-5.4 выдавала 75.1%, а Claude Opus 4.7 застрял на отметке 69.4%. Разница в 13% между OpenAI и Anthropic в контексте управления ОС — это проп

Оглавление

Цифровой инженер с водительским удостоверением
Омнимодальный сброс и бесконечная память
Ловушка уверенного лжеца

Представь, что твой талантливый, но безалаберный стажёр наконец-то получил водительские права и перестал врезаться в бордюры при каждой попытке доехать до офиса. Именно так ощущается переход на GPT-5.5. Если раньше работа с ИИ-агентом напоминала игру в «русскую рулетку» с командой rm -rf, где одна галлюцинация могла обнулить весь вечер, то теперь фокус сместился с «насколько модель умная» на «насколько она автономная».

Цифровой инженер с водительским удостоверением

Главный прорыв здесь зашит в цифрах Terminal-Bench 2.0. Результат в 82.7% стал качественным скачком в использовании инструментов, который нельзя спутать с обычным приростом в бенчмарках. Для сравнения: прошлая версия GPT-5.4 выдавала 75.1%, а Claude Opus 4.7 застрял на отметке 69.4%. Разница в 13% между OpenAI и Anthropic в контексте управления ОС — это пропасть.

Теперь ты можешь делегировать развёртывание проекта целиком, не перепроверяя каждую строчку в консоли. Модель перестала «надеяться на чудо», когда вводит команду. Она планирует шаги, видит ошибку в выводе терминала и исправляет её на лету, не дергая тебя каждые две секунды вопросом «а что мне делать дальше?». Это делает ИИ полноценным оператором, который может самостоятельно настроить окружение и задеплоить приложение, пока ты пьешь кофе.

Омнимодальный сброс и бесконечная память

Технически OpenAI провернули «базовый сброс» — это первая полностью переобученная модель с момента GPT-4.5. Теперь система стала по-настоящему омнимодальной. Текст, изображения, аудио и видео теперь обрабатываются в едином потоке.

Для тебя это означает, что модель гораздо лучше понимает контекст, где нужно совместить визуальный анализ скриншота ошибки и правку кода в терминале. Добавь к этому контекстное окно в 400K токенов в Codex и миллион в API. Это как если бы стажёр внезапно обрел фотографическую память на все ваши внутренние доки и историю коммитов за год. Ты больше не тратишь время на то, чтобы «напоминать» модели, как устроена ваша архитектура, потому что она просто держит всё в голове.

Ловушка уверенного лжеца

Конечно, за автономность приходится платить. Первая проблема — цена. Стоимость API выросла в два раза: теперь выходные токены стоят $30 за миллион. Для высоконагруженных конвейеров это ощутимый удар по бюджету, почти как внезапное повышение тарифа ЖКХ в разгар зимы. Впрочем, за счёт эффективности токенов в Codex общие затраты на одну задачу снизятся, так как модель тратит меньше лишних слов на раздумья.

Вторая, и куда более опасная штука — конфабуляции. Artificial Analysis зафиксировал, что в специфических задачах на поиск информации модель ошибается в 86% случаев, когда не знает ответа. GPT-5.5 стала «уверенным лжецом». Она будет врать с тем же лицом и тем же тоном, с которым выдает идеальный код для терминала. Поэтому правило простое: доверяй ей управлять консолью и писать функции, но никогда не используй её как единственный источник фактов без проверки. Это инструмент для действий.

Битва за терминал: GPT против всех

Если смотреть на рынок, то сейчас сложилась интересная расстановка сил. GPT-5.5 забирает себе корону главного «оператора системы». Если тебе нужно, чтобы ИИ залез в терминал и что-то там настроил — это твой выбор. Однако Claude Opus 4.7 всё ещё выглядит безопаснее для глубокого рефакторинга огромных многофайловых проектов, где важна архитектурная чистота.

Для тех, кому нужно научное мышление, всё ещё лидирует Gemini 3.1 Pro. А если бюджет ограничен, в игру вступает DeepSeek V4-Pro. Он показывает результаты, близкие к флагманам OpenAI, но стоит в 10 раз дешевле. Это как выбирать между дорогущим немецким автомобилем и эффективным китайским электрокаром: один дает статус, другой — просто возит тебя из точки А в точку Б за копейки.

Разрабатываю и внедряю ИИ-агентов под бизнес-процессы — если нужно в свой бизнес, напишите в телеграме @dmitra_ai или ВКонтакте, обсудим.

Мы окончательно переходим от эпохи «чата с ботом» к эпохе управления цифровыми сотрудниками. Главный навык теперь в умении ставить задачу так, чтобы автономный агент не решил, что лучший способ оптимизировать систему — это удалить её целиком.