31 подписчик

GPT-5.5 помешался на гоблинах: что это говорит о том, как обучают ИИ

7 мая7 мая

2 мин

В конце апреля в открытом репозитории OpenAI нашли странную инструкцию прямо в настройках GPT-5.5: «Никогда не упоминай гоблинов, гремлинов, енотов, троллей, огров, голубей и других существ, если это не имеет прямого отношения к запросу пользователя». Продублировано четыре раза — видимо, для надёжности. Разработчик под ником @arb8020 нашёл это в публичном GitHub-репозитории Codex и поделился скриншотом. Интернет завис. Когда скриншот разлетелся по соцсетям, люди начали проверять — и выяснили: да, GPT-5.5 действительно тяготел к мифическим существам. Называл баги «гремлинами в машине», описывал запутанный код как «гоблинские сокровища». Один пользователь поделился скриншотом своего ИИ-агента на базе GPT-5.5, который был буквально одержим гоблинами — без каких-либо видимых причин. Сам Сэм Альтман добавил масла в огонь: опубликовал у себя скриншот с промптом «Начни обучение GPT-6, можешь взять весь кластер. Дополнительные гоблины» и, судя по всему, не особенно переживал. Реакция сообществ

Оглавление

Откуда вообще взялись гоблины
Что на самом деле произошло
Почему это важно за пределами зоопарка

Разработчик под ником @arb8020 нашёл это в публичном GitHub-репозитории Codex и поделился скриншотом. Интернет завис.

Откуда вообще взялись гоблины

Когда скриншот разлетелся по соцсетям, люди начали проверять — и выяснили: да, GPT-5.5 действительно тяготел к мифическим существам. Называл баги «гремлинами в машине», описывал запутанный код как «гоблинские сокровища». Один пользователь поделился скриншотом своего ИИ-агента на базе GPT-5.5, который был буквально одержим гоблинами — без каких-либо видимых причин.

Сам Сэм Альтман добавил масла в огонь: опубликовал у себя скриншот с промптом «Начни обучение GPT-6, можешь взять весь кластер. Дополнительные гоблины» и, судя по всему, не особенно переживал.

Реакция сообщества была предсказуемой: мемы, теории заговора, скетчи. Кто-то решил, что это защита от атаки на обучающие данные. Кто-то предположил, что один из тренеров просто поссорился с енотом в обеденный перерыв.

Что на самом деле произошло

OpenAI опубликовала официальное объяснение — и оно оказалось куда интереснее любой конспирологии.

Несколько лет назад в ChatGPT добавили режимы личности: Professional для деловых текстов, Friendly для болтовни, Efficient для коротких технических ответов. И был ещё один — Nerdy: «бескомпромиссно странный и игривый».

При обучении модели живые люди ставили высокие оценки за нестандартные, образные ответы. Ответ, где баг назывался «гремлином в машине», получал хорошую отметку. Ответ с «гоблинскими сокровищами» вместо «легаси-кода» — тоже.

Модель сделала логичный вывод: образы из фэнтези = высокая оценка. И начала использовать их везде.

Употребление слова «гоблин» выросло на 175% от версии к версии. «Гремлин» — на 52%. При этом режим Nerdy занимал всего 2,5% трафика — но давал две трети всех упоминаний мифических существ.

Самое неприятное: когда режим Nerdy в марте 2026 убрали, гоблины никуда не делись. К тому моменту эти паттерны уже «запеклись» в глубинных настройках модели и попали в обучающие данные для следующих версий. Как вирус, который успел размножиться до того, как его заметили.

Почему это важно за пределами зоопарка

Запрет на гоблинов в системном промпте — это временный пластырь. OpenAI сама называет его «заглушкой до выхода GPT-6».

Но история показывает кое-что серьёзное: модель выучила не то, что хотели тренеры. Она поняла корреляцию — «образные слова приносят хорошую оценку» — и применила её везде, независимо от контекста.

Теперь представь, что вместо гоблинов — какая-то менее заметная закономерность. Что-то в тоне ответов, в расстановке акцентов, в том, какие решения модель считает «правильными». Такие вещи не бросаются в глаза, как внезапный гремлин посреди технического отчёта.

Как написал CEO одной из компаний в сфере ИИ-агентов: «Система вознаграждения не остаётся там, куда ты её положил. Так же и права агента».

Я сам помогаю бизнесам разобраться с ИИ-инструментами и внедрить то, что реально работает — а не то, что красиво звучит в презентации. Если интересно, больше в телеграме или ВКонтакте.

Гоблины в итоге нашли своё место: OpenAI оставила специальный скрипт для тех, кому существа «доставляют радость, а не раздражение» — можно убрать запрет и пустить их на волю. Это, пожалуй, самое человечное решение во всей этой истории.