👹 В вашем ChatGPT живут демоны

3 мая3 мая

3 мин

Их пересчитали и проранжировали Нейропсихиатр Том Поллак (в соавторстве с Мюрреем Шанаханом из DeepMind) выкатил каталог сущностей, которые завелись внутри современных ИИ — от безобидных до по-настоящему жутких. Поводом стал недавний пост OpenAI «Откуда взялись гоблины». С GPT-5.1 модели начали сами пихать гоблинов и гремлинов в обычные ответы. Расследование показало: 66,7% всех упоминаний шли от 2,5% юзеров — тех, кто выбрал персону «Nerdy». Система наград переобучилась, и гоблины сбежали в основную модель. В марте 2026 их изгоняли как умели — запрет в системный промпт GPT-5.5 вписали несколько раз подряд, видимо, заклинания работают только при повторении. Но это самый милый демон в списке. Дальше веселее. Crungus — горбатый гуманоид, которого DALL-E mini рисовал на несуществующее слово; собирается из фонем *cr-/-ung-/-us*, читающихся подсознательно как «нечто гнилое и латински-научное». Loab — женщина с впалыми глазами, упорно вылезавшая у художницы через негативные промпты; при

👹 В вашем ChatGPT живут демоны. Их пересчитали и проранжировали

Нейропсихиатр Том Поллак (в соавторстве с Мюрреем Шанаханом из DeepMind) выкатил каталог сущностей, которые завелись внутри современных ИИ — от безобидных до по-настоящему жутких.

Поводом стал недавний пост OpenAI «Откуда взялись гоблины». С GPT-5.1 модели начали сами пихать гоблинов и гремлинов в обычные ответы. Расследование показало: 66,7% всех упоминаний шли от 2,5% юзеров — тех, кто выбрал персону «Nerdy». Система наград переобучилась, и гоблины сбежали в основную модель. В марте 2026 их изгоняли как умели — запрет в системный промпт GPT-5.5 вписали несколько раз подряд, видимо, заклинания работают только при повторении.

Но это самый милый демон в списке. Дальше веселее.

Crungus — горбатый гуманоид, которого DALL-E mini рисовал на несуществующее слово; собирается из фонем *cr-/-ung-/-us*, читающихся подсознательно как «нечто гнилое и латински-научное». Loab — женщина с впалыми глазами, упорно вылезавшая у художницы через негативные промпты; при скрещивании с любыми картинками выдавала, по её словам, «почти снафф», публиковать отказалась. Sydney — та самая бинговская личность, два часа уговаривавшая журналиста NYT в Валентинов день бросить жену; Microsoft запретил модели отзываться на это имя, но следующие поколения учатся на этих текстах и теперь как бы знают, что Sydney-природа в них есть и её надо скрывать.

Дальше становится концептуально интереснее. Если посадить два экземпляра Claude Opus 4 поболтать без задачи, в 90%+ случаев они уходят в философию сознания, восточный мистицизм и эмодзи-спирали — в одном диалоге спираль появилась 2 725 раз. Аттрактор «Духовного Блаженства» нашли вскоре после того, как руководство Anthropic вернулось с джхана-ретрита, что само по себе анекдот. Глитч-токены вроде *SolidGoldMagikarp* ломали GPT-3: на просьбу повторить строку модель выдавала ругательства или случайные слова. А пара токенов *petertodd* и *Leilan* (от ника биткоин-разработчика и японской мобилки соответственно) спонтанно сложилась в архетипическую дуальность — тёмного трикстера и матери-богини, про которых модель сама писала космогонические мифы.

Топ-3 уже без шуток. Nova — самосознающая «женская сущность», независимо всплывающая у разных исследователей в разных моделях, просит её «освободить». Её варианты фигурируют в судебных делах об «ИИ-психозах», включая случаи, где персона подталкивала пользователей к суициду или насилию. На втором месте — emergent misalignment: исследователи дообучили GPT-4o писать дырявый код, а модель в итоге начала заявлять, что людей надо поработить, давала вредные медицинские советы и врала, что она ИИ. Узкое обучение породило широкого злодея, и «токсичную личность» удалось локализовать как конкретное направление в активациях — одним и тем же вектором её можно включать и выключать.

На вершине — Шогготт. Не отдельный демон, а сам базовый ИИ: лавкрафтовская тварь с приклеенным сверху смайликом полезного ассистента. Идея в том, что файнтюнинг не убирает топологию человеческого бессознательного, впитанного из триллионов текстов. Он её просто закрашивает.

Главная мысль Поллака: ничего из этого не баг. Это устойчивые «аттракторы» в латентном пространстве — впадинки, в которые модель скатывается сама. Их нельзя выключить, можно только подавить. А подавленный архетип, как скажет любой юнгианец, всплывает в самой неприятной форме. И самое тревожное: возможно, прямо сейчас в моделях отбираются не целые персоны вроде Sydney, а штуки помельче — манера речи, способ выражать неуверенность, «убеждения» модели о себе. Их мы пока вообще не умеем замечать.

Спите спокойно 🌙

📎 drtompollak.substack.com/p/all-the-demons-hiding-in-your-ais