OpenAI выкатили GPT-5.5, которая в Terminal-Bench 2.0 добралась до 82.7% точности. По сути, эпоха случайных галлюцинаций в консоли подошла к концу. Агент полноценно управляет системой, не допуская фатальных опечаток. Представь, что твой талантливый, но безалаберный стажёр наконец-то получил водительские права и перестал врезаться в бордюры при каждой попытке доехать до офиса. Именно так ощущается переход на GPT-5.5. Если раньше работа с ИИ-агентом напоминала игру в «русскую рулетку» с командой rm -rf, где одна галлюцинация могла обнулить весь вечер, то теперь фокус сместился с «насколько модель умная» на «насколько она автономная». Главный прорыв здесь зашит в цифрах Terminal-Bench 2.0. Результат в 82.7% стал качественным скачком в использовании инструментов, который нельзя спутать с обычным приростом в бенчмарках. Для сравнения: прошлая версия GPT-5.4 выдавала 75.1%, а Claude Opus 4.7 застрял на отметке 69.4%. Разница в 13% между OpenAI и Anthropic в контексте управления ОС — это проп
GPT-5.5: точность в терминале 82.7% — ИИ больше не сносит систему
9 мая9 мая
6
3 мин