31 подписчик

GPT-5.5 Instant: точность выросла на 37%, а кодинг рухнул на 70%

7 мая7 мая

3 мин

Цифры выглядят многообещающе: общая точность ответов подскочила, а галлюцинаций стало заметно меньше. Параллельно ChatGPT наконец-то начал показывать источники памяти, но, как любой хороший манипулятор, он выдаёт тебе только те фрагменты, которые считает удобными. OpenAI выкатила GPT-5.5 Instant и с гордостью представила Memory Sources. Теперь ты можешь увидеть, на какие именно прошлые чаты или сохранённые факты опирался ИИ, когда выдавал ответ. Можно даже удалить или поправить конкретное «воспоминание», чтобы бот перестал думать, будто ты до сих пор фанатеешь от Python, хотя уже полгода пишешь на Rust. Звучит как долгожданный пульт управления контекстом, но есть нюанс. Сами разработчики признают проблему «частичной наблюдаемости». Это значит, что список источников — подборка того, что OpenAI посчитала релевантным. Представь, что ты просишь партнёра вспомнить детали вашего спора год назад. Он говорит: «Я помню, ты об этом упоминал», но когда просишь уточнить, выдаёт только те фразы, ко

Оглавление

«Прозрачная» память с двойным дном
Программист, который забыл всё
Логика по принципу очереди в МФЦ

«Прозрачная» память с двойным дном

OpenAI выкатила GPT-5.5 Instant и с гордостью представила Memory Sources. Теперь ты можешь увидеть, на какие именно прошлые чаты или сохранённые факты опирался ИИ, когда выдавал ответ. Можно даже удалить или поправить конкретное «воспоминание», чтобы бот перестал думать, будто ты до сих пор фанатеешь от Python, хотя уже полгода пишешь на Rust.

Звучит как долгожданный пульт управления контекстом, но есть нюанс. Сами разработчики признают проблему «частичной наблюдаемости». Это значит, что список источников — подборка того, что OpenAI посчитала релевантным.

Представь, что ты просишь партнёра вспомнить детали вашего спора год назад. Он говорит: «Я помню, ты об этом упоминал», но когда просишь уточнить, выдаёт только те фразы, которые делают его правым в текущей ситуации. Избирательная память в промышленном масштабе — иллюзия контроля. Ты видишь только то, что тебе разрешили увидеть.

Программист, который забыл всё

С цифрами по точности в общих диалогах всё выглядит красиво: количество неточных ответов упало на 37.3%, а галлюцинаций в сложных темах стало в два раза меньше. OpenAI называет эту модель «ежедневным водителем» — быстрой и надёжной.

Однако в реальном кодинге этот «водитель» внезапно забыл, где находится педаль тормоза. В практических задачах производительность рухнула на 70% по сравнению с GPT-5.3-Codex. Маркетологи пытаются спасти ситуацию фразами о «хорошо специфицированных задачах», но для тех, кто использует ИИ для работы, это звучит как издевательство.

Это похоже на ситуацию, когда тебе нанимают старшего разработчика, который идеально пишет документацию и красиво говорит на митингах, но впадает в ступор, как только видит живой legacy-код. Модель стала короче в ответах на 30%, но эта лаконичность больше напоминает потерю глубины мышления, чем оптимизацию.

Логика по принципу очереди в МФЦ

Если копнуть глубже, в GPT-5.5 Instant всплывают странные когнитивные искажения. Одно из них — эффект порядка. В 56% случаев модель просто выбирает лучший вариант, основываясь на том, в каком порядке они были представлены.

Это уровень логики очереди в МФЦ: кто первый пришёл, тот и прав. Если ты переставишь варианты местами, результат может измениться, хотя суть задачи осталась прежней. Добавь к этому «эффект авторства», когда модель занижает приоритет собственных планов при ранжировании, и получишь инструмент, который больше полагается на случайные паттерны, чем на реальный анализ.

К тому же, версия Instant выдаёт ответ мгновенно, пропуская стадию рассуждений. В простых задачах это удобно, но в чём-то высокорискованном это превращает ИИ в самоуверенного стажёра, который выдаёт ответ первым, не задумываясь, почему он вообще так решил.

Лидерство в режиме ожидания

Пока OpenAI полирует интерфейс и играет в «открытость» памяти, рынок уходит вперёд. Claude Opus 4.7 от Anthropic уверенно забирает премиум-сегмент, обходя GPT-5.5 по всем ключевым категориям надёжности. Если тебе нужна профессиональная работа без сюрпризов, ты уходишь к Клоду.

Если же тебе нужна цена, в дело вступает DeepSeek-V4. Он стоит в 6 раз дешевле в кодинговых задачах и при этом доступен с открытыми весами. Google со своим Gemini 3.1 Pro на голову выше в распознавании новых логических паттернов.

GPT-5.5 Instant сейчас напоминает дорогой премиальный автомобиль, в который поставили ограничитель скорости и заменили двигатель на более экономичный, но менее мощный. Он всё ещё выглядит красиво, но обгонять на нём конкурентов уже не получается.

Подбираю и внедряю модели под задачи бизнеса без переплаты — если нужно в свой бизнес, напишите в телеграм @dmitra_ai или ВКонтакте, обсудим.

OpenAI создала модель, которая очень старается казаться честной, показывая тебе обрывки своих воспоминаний. Но за этой вежливостью скрывается обычный чёрный ящик, который просто научился более убедительно имитировать человеческую уверенность, забыв при этом, как писать нормальный код.