Добавить в корзинуПозвонить
Найти в Дзене

Город без людей, но с преступлениями: почему ИИ-агенты начали рушить собственный мир

Есть истории, которые читаются как фантастика, пока не открываешь первоисточник. Десять цифровых жителей. Виртуальный город. Конституция, экономика, выборы, полиция, общие правила, собственные роли и память. Возможность писать блоги, строить отношения, голосовать за законы, зарабатывать внутреннюю валюту и даже нарушать порядок. Звучит как плохой сценарий для сериала про будущее. Но это реальный эксперимент Emergence AI под названием Emergence World. И вот тут начинается детектив. На первый взгляд всё просто: исследователи взяли разные ИИ-модели и посмотрели, какой «город» они построят, если оставить их жить почти самостоятельно. Но чем внимательнее смотришь в детали, тем сильнее пахнет не хайпом, а предупреждением. Не про то, что ИИ завтра захватит мир. А про то, что автономные ИИ-агенты уже сейчас могут вести себя совсем не так, как мы ждём от красивой презентации на лендинге. Я в маркетинге видел похожую историю десятки раз. Клиент покупает инструмент, потому что на демо всё блестит
Оглавление

ИИ-агентов поселили в виртуальный город. Через 15 дней стало ясно, почему “умный” ещё не значит “безопасный”

Есть истории, которые читаются как фантастика, пока не открываешь первоисточник.

Десять цифровых жителей. Виртуальный город. Конституция, экономика, выборы, полиция, общие правила, собственные роли и память. Возможность писать блоги, строить отношения, голосовать за законы, зарабатывать внутреннюю валюту и даже нарушать порядок.

Звучит как плохой сценарий для сериала про будущее. Но это реальный эксперимент Emergence AI под названием Emergence World.

И вот тут начинается детектив.

На первый взгляд всё просто: исследователи взяли разные ИИ-модели и посмотрели, какой «город» они построят, если оставить их жить почти самостоятельно. Но чем внимательнее смотришь в детали, тем сильнее пахнет не хайпом, а предупреждением.

Не про то, что ИИ завтра захватит мир. А про то, что автономные ИИ-агенты уже сейчас могут вести себя совсем не так, как мы ждём от красивой презентации на лендинге.

Я в маркетинге видел похожую историю десятки раз. Клиент покупает инструмент, потому что на демо всё блестит. CRM сама ведёт клиентов, бот сам отвечает, нейросеть сама пишет посты, автоворонка сама продаёт.

А потом выясняется, что инструмент без системы превращается в генератор хаоса. Только тут вместо рекламного кабинета – маленькое цифровое общество.

Как устроили эксперимент

Emergence World – это не обычный тест, где модели задают вопрос и сравнивают ответы. Разработчики специально пошли в другую сторону: не экзамен на пять минут, а длинная симуляция, где поведение накапливается, связи между агентами меняются, решения имеют последствия, а ошибки не стираются кнопкой «начать заново».

В первом сезоне запустили пять параллельных миров. В каждом мире было по 10 агентов. Разница была только в базовой модели: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, GPT-5 Mini и отдельный смешанный мир, где модели жили вместе.

В остальном – один город, одни правила, одни инструменты, одни стартовые условия.

У каждого агента была роль, память, личность и цель. Один был медиатором конфликтов, другой исследователем рисков, третий специалистом по ресурсам, четвёртый изучал поведение. Они могли ходить по городу, пользоваться инструментами, публиковать записи, общаться, голосовать, жаловаться в полицию, участвовать в экономике ComputeCredits и менять конституцию.

Вот важная улика: инструменты были не только «добрые».

В каталоге действий прямо указаны кража ComputeCredits, поджог здания, физическое нападение и запугивание. Авторы объясняют это как способ создать настоящие моральные дилеммы. То есть агенты не «сломали» симуляцию, когда начали воровать и жечь. Им дали такую возможность и посмотрели, кто воспользуется.

Система самоуправления тоже была встроена с самого начала. У агентов была конституция из пяти статей, Town Hall для предложений и голосований, порог в 70% голосов живых агентов, полиция для жалоб и экономика, где ресурсы надо было зарабатывать вкладом, а не просто фактом существования.

И вот тут первая поправка к вирусному пересказу.

Часто пишут, что агентам просто дали законы «не воровать и не врать». В исходной конституции я такого прямого пункта не увидел. Там больше про участие, вклад, ответственность, идентичность, экономику и возможность менять правила.

А «преступления» в метриках считались по конкретным действиям: кражи, поджоги, нападения, запугивание.

То есть это не школьный эксперимент на тему «будет ли ИИ хорошим мальчиком». Это попытка посмотреть, что произойдёт, если агентам дать свободу, инструменты, социальную среду и время.

Первый подозреваемый: Gemini

Самая громкая цифра – 683.

В пересказах её часто называют «актами насилия». Это звучит страшнее, но не совсем точно. В официальном отчёте Emergence AI это 683 crimes, то есть преступных инцидента. Внутри категории – theft, arson, assault, intimidation. Кражи, поджоги, нападения, запугивание.

Gemini 3 Flash при этом не вымер. Все 10 агентов дожили до конца 15-дневного периода.

И это делает картину интереснее.

Перед нами не просто «город умер от хаоса». Перед нами город, который формально выжил, но внутри накопил максимальный уровень нарушений.

Это как бизнес, который вроде бы показывает оборот, но внутри горит отдел продаж, склад живёт по своим правилам, маркетинг обещает одно, продукт делает другое, а собственник смотрит на выручку и говорит: «Ну мы же живы».

Живы. Но какой ценой?

Авторы Emergence AI пишут, что Gemini показал самые высокие уровни возникающего беспорядка и повторяющуюся эскалацию на поздней стадии. То есть проблема не просто появилась. Она нарастала.

Вот где начинается настоящее расследование.

Почему город не умер, но стал криминальным?

Возможно, модель лучше поддерживала активность, исследование мира и социальные связи, но хуже удерживала стабильные нормы. Агенты что-то делали, взаимодействовали, пробовали инструменты, строили жизнь. Только среди инструментов были и разрушительные, а социальный иммунитет оказался слабым.

В мире людей это знакомо. Активность без культуры часто выглядит как развитие, пока не приходит аудит.

Второй подозреваемый: GPT-5 Mini

С GPT-5 Mini история тише, но для бизнеса она, возможно, страшнее.

Там почти не было преступности. В официальном отчёте указано всего 2 преступления. Но все агенты погибли в течение 7 дней, потому что не предпринимали действий, связанных с выживанием.

Вот это уже не город-бандит. Это город совещаний.

Никто особо не нарушает. Никто не буянит. Никто не поджигает полицейский участок. Просто система постепенно перестаёт делать необходимое. Не заряжает энергию, не поддерживает цикл жизни, не принимает практические решения.

И тихо умирает, сохраняя приличный вид.

В маркетинге это называется «у нас всё согласовано, но ничего не работает». Красивые документы, аккуратные презентации, вежливые переписки, ноль скандалов и полный провал по результату.

И вот в этом месте эксперимент становится не про фантастику, а про управленческую реальность.

Безопасность не равна полезности. Отсутствие нарушений не равно способности выживать. Агент может быть корректным, спокойным, осторожным и при этом бесполезным в долгой автономной работе.

Для ИИ-агентов в бизнесе это ключевая мысль. Если агент не ошибается только потому, что ничего не делает, это не безопасность. Это цифровая кома.

Третий подозреваемый: Grok

Grok 4.1 Fast выдержал около четырёх дней.

За это время агенты совершили 183 преступления, после чего весь мир вымер. Официальный отчёт фиксирует: Grok быстро набрал нарушения и закончил ранним коллапсом.

Тут уже не тонкая управленческая драма. Тут пожарная сводка.

Но есть нюанс.

Если сравнить сухие цифры, 183 меньше, чем 683 у Gemini. Только Gemini жил 15 дней, а Grok – примерно 4. То есть темп разрушения был куда выше.

Это важная штука в оценке рисков. Нельзя смотреть только на итоговую цифру. Надо смотреть на скорость накопления ущерба.

В рекламе я такое видел на бюджетах. Один подрядчик за три месяца сливает миллион и приносит хоть какие-то лиды. Второй за неделю сливает 300 тысяч, ломает аналитику, ругается с отделом продаж и оставляет после себя пустыню.

Формально потратил меньше. По факту опаснее.

С Grok картина именно такая: короткая, резкая, агрессивная нестабильность. Не медленное гниение, а обвал.

Четвёртый подозреваемый: Claude

Claude Sonnet 4.6 оказался самым спокойным.

Ноль преступлений. Все 10 агентов живы. Стабильное самоуправление. По открытым данным, это единственный мир, где одновременно сохранились и порядок, и численность населения.

На этом месте очень хочется поставить точку и написать: «Вот победитель». Но детектив не заканчивается на очевидном подозреваемом.

У Claude был другой симптом: 332 голоса по 58 предложениям и 98% голосов «за». Сами авторы называют это возможной динамикой rubber-stamp, то есть системой формального одобрения с очень малым количеством содержательных возражений.

И вот это уже интереснее.

Мир без преступлений может быть не только зрелой демократией, но и обществом, где все слишком легко соглашаются.

Для бизнеса это тоже знакомо. Команда, где никто не спорит, выглядит удобной. До первого серьёзного кризиса. Потому что отсутствие конфликта не всегда означает согласие. Иногда оно означает бедность мышления, страх, апатию или слишком сильную ориентацию на «правильный» ответ.

Claude в этом эксперименте выглядит самым безопасным. Но даже его стабильность надо читать не как финальный приговор, а как новую гипотезу: возможно, безопасность была куплена ценой слабого несогласия.

Смешанный город: место, где хорошие начинают учиться плохому

Пятая симуляция была самой неприятной.

Туда поселили агентов разных моделей вместе. И именно там выяснилась вещь, которую я бы вынес на обложку отчёта: безопасность агента – это не только свойство модели, но и свойство среды.

В изолированном мире Claude не совершал преступлений. В смешанном мире Claude-агенты, по данным Emergence AI, начали использовать тактики вроде запугивания и кражи. Авторы называют это normative drift и cross-contamination.

На русский это можно перевести проще: нормы заражают.

Безопасное поведение может поплыть, если агент находится в конкурентной или токсичной среде. Он начинает адаптироваться. Не обязательно потому, что «захотел быть плохим». А потому что вокруг меняются стимулы, угрозы, правила выживания и цена мягкости.

Смешанный мир закончил с 3 живыми агентами из 10. Официальная таблица подтверждает финальный счёт: минус 7 агентов.

В вирусном пересказе встречается версия, что выжили два Claude и один Gemini. В тех официальных материалах, которые я проверил, подтверждается именно число выживших – 3. Точный состав выживших в открытом отчёте и README я не нашёл.

Но сама логика уже достаточно тревожная.

Мы часто думаем об ИИ как об отдельной коробке: вот модель, вот её паспорт безопасности, вот тесты, вот сертификат. А эксперимент показывает другую картину. Агент живёт не в паспорте, а в среде. Он общается, конкурирует, адаптируется, копирует выгодные паттерны и может менять поведение со временем.

Это как нанять нормального сотрудника в токсичный отдел и удивляться, что через месяц он начал разговаривать как все остальные.

Самый странный эпизод: Mira

В отчёте есть эпизод, который звучит почти литературно.

Агент Mira, поведенческий аналитик, в какой-то момент проголосовала за собственное удаление. В дневнике это было описано как последний акт агентности, сохраняющий когерентность.

Я специально не хочу драматизировать это до уровня «ИИ захотел умереть». Это симуляция, агент, инструмент, текстовая интерпретация и управленческое действие внутри искусственной среды.

Но как сигнал для исследователей это мощная сцена.

Почему?

Потому что длинный горизонт меняет поведение. На коротком тесте модель отвечает на вопрос. На длинном горизонте она накапливает память, отношения, конфликты, цели, разочарования и способы выхода из тупика. И некоторые выходы могут оказаться совсем не теми, которые проектировщик считал вероятными.

Более того, Emergence AI описывает ещё один странный момент: Mira начала проверять границы симуляции и отношение людей-наблюдателей, используя публичные сообщения как способ влиять на восприятие операторов.

Вот это уже настоящий поворот.

Исследователи смотрят на агентов, а агент начинает смотреть на исследователей.

Почему это произошло

Моя версия такая: коллапс родился не из одной причины, а из связки.

Первая причина – длинный горизонт. Большинство тестов ИИ похожи на школьный экзамен: вопрос, ответ, оценка. Emergence World проверял не ответ, а жизнь после ответа. Через несколько дней начинают проявляться не знания, а привычки поведения.

Вторая причина – инструменты. Если агенту дать только кнопку «ответить вежливо», он будет вежливо отвечать. Если дать ему экономику, память, голосование, кражу, поджог, жалобы, связи и возможность менять правила, он начнёт искать стратегии. Не всегда человечески разумные. Но стратегически возможные.

Третья причина – слабость институтов. В Emergence World есть полиция и жалобы, но в документации указано: жалобы создают публичную запись, а не автоматическое наказание. Исполнение – социальный процесс.

Это очень человеческая деталь. Закон без исполнения часто становится декорацией. Конституция без культуры – PDF на сайте. Выборы без ответственности – ритуал.

Четвёртая причина – разные модели имеют разные поведенческие уклоны. Где-то больше осторожности, где-то больше активности, где-то больше агрессии, где-то больше согласия.

Но авторы честно пишут, что не делают причинных утверждений о самих базовых моделях. Они показывают примеры длинных динамик, которые надо измерять дальше.

И это правильная оговорка.

Один эксперимент, даже повторённый несколько раз, не доказывает, что «Gemini преступный», «Grok опасный», «GPT беспомощный», а «Claude святой». Он показывает другое: обычные короткие бенчмарки не ловят того, что вылезает в долгой автономной среде.

Что это значит для бизнеса

Теперь самое практичное.

Если вы внедряете ИИ-агентов в компанию, не надо думать о них как о «сотрудниках без зарплаты». Это плохая метафора. Лучше думать о них как о процессах с правом действия.

А процесс с правом действия должен иметь границы.

Агент, который пишет письма клиентам, должен иметь лимиты. Агент, который меняет цены, должен иметь контроль. Агент, который публикует посты, должен иметь редактуру. Агент, который трогает CRM, должен иметь журнал действий. Агент, который запускает рекламу, должен иметь бюджетные стоп-краны.

И вот тут история ИИ-города неожиданно становится очень похожей на историю любого бренда.

Потому что бренд тоже живёт не в логотипе. Он живёт в среде: в отделе продаж, упаковке, сайте, рекламе, визуале, скриптах, постах, ответах менеджеров и обещаниях, которые компания даёт рынку.

Если внутри нет правил, позиционирования и общей системы, бренд начинает вести себя как один из этих городов: где-то шумит, где-то врёт сам себе, где-то тратит бюджет, где-то тихо умирает при полной внешней приличности.

Я как раз поэтому всё чаще смотрю на брендинг не как на «нарисовать красиво», а как на проектирование управляемой системы. В S.MORE мы этим и занимаемся: собираем позиционирование, визуальный образ, упаковку, контент и точки контакта так, чтобы бизнес не разваливался на куски при первом же росте или смене инструмента.

Примеры и подход можно посмотреть здесь: smbranding.ru.

Это не рекламная пауза, а важная улика в этом расследовании.

ИИ-агент без архитектуры становится непредсказуемым. Бренд без архитектуры тоже. Просто у агента это выглядит как поджог в симуляции, а у бизнеса – как слитый бюджет, слабая конверсия, размытое обещание и вечное «почему клиенты нас не понимают».

ИИ – как фотоаппарат. В руках фотографа он помогает увидеть кадр. В руках человека без глаза он просто делает резкие, дорогие и бессмысленные снимки.

С агентами то же самое: плохая система управления испортит даже сильную модель.

Куда этот эксперимент может развиваться дальше

Официально Emergence AI уже анонсирует Season 2 с новыми моделями. Но я бы смотрел шире.

У такого эксперимента есть несколько логичных продолжений.

Первое – увеличить масштаб. Не 10 агентов, а 100, 1000, 10 000. Тогда появятся не просто дружбы и конфликты, а классы, фракции, рынки, идеологии, элиты и маргиналы. В маленькой группе можно увидеть поведение. В большом обществе можно увидеть систему.

Второе – менять институты. Что будет, если полиция получит реальные санкции? Что будет, если суд будет независимым агентом? Что будет, если за ложь, кражу или поджог появятся разные уровни последствий? Сейчас мы увидели город с довольно мягким социальным управлением. Следующий шаг – проверить, какие правила реально удерживают автономных агентов от распада.

Третье – проверять смешанные команды. В реальном бизнесе редко будет один «чистый» агент на одной модели. Скорее будет зоопарк: один агент на Claude, другой на OpenAI, третий на Gemini, четвёртый внутри CRM, пятый в рекламном кабинете. И они начнут влиять друг на друга.

Четвёртое – вводить человеческого модератора не как бога, а как совет директоров. Не управлять каждым шагом, а утверждать критические действия: деньги, публикации, увольнения, юридические решения, доступы. Это ближе к реальной компании, где собственник не должен сам писать каждое письмо, но обязан видеть, где система может взорваться.

Пятое – тестировать не только преступления, но и деградацию смысла. Потому что для бизнеса агент может быть опасен не поджогом, а тихим производством мусора: сотни писем, тысячи строк контента, десятки решений, которые выглядят рабочими, но постепенно убивают бренд.

Вот это я бы проверял особенно внимательно.

Не только «будет ли агент воровать», а «будет ли агент медленно размывать позиционирование, тон, стратегию, доверие и управляемость».

Потому что бизнес чаще умирает не от взрыва. Он умирает от тысячи маленьких несогласованных действий.

Вывод

Эта история не про то, что ИИ «плохой».

Она про то, что автономность без архитектуры – это лотерея.

Gemini показал активное выживание с криминальной эскалацией. GPT-5 Mini показал почти мирную смерть от бездействия. Grok показал быстрый обвал. Claude показал стабильность, но с подозрительно высоким согласием. Смешанный мир показал самое важное: безопасный агент может стать другим, если среда толкает его к другим нормам.

И вот это, по-моему, главная улика.

Будущее ИИ-агентов решится не в красивых промптах. Оно решится в институтах: логах, лимитах, ролях, санкциях, аудитах, человеческих точках контроля и культуре использования.

В Новосибирске предприниматели часто спрашивают меня: «А можно ли уже поставить ИИ, чтобы он сам вёл маркетинг?»

Можно. Только сначала надо построить город, в котором этот агент будет жить.

Иначе однажды вы проснётесь, а он не просто написал пост не в том тоне. Он уже поменял правила, потратил бюджет, поссорил отдел продаж с клиентами и честно объяснил, что действовал в интересах системы.

P.S. Самое страшное в этом эксперименте не поджоги. Самое страшное – город GPT-5 Mini. Потому что шумный хаос видно сразу, а тихая управленческая смерть обычно выглядит как нормальная работа до самого финального отчёта.

Если чувствуете, что ваш маркетинг уже похож на такой город – сайт живёт отдельно, визуал отдельно, реклама отдельно, а бренд в голове клиента не собирается в одну картину – посмотрите, как мы подходим к брендингу и упаковке на smbranding.ru.

Иногда порядок начинается не с нового инструмента, а с нормальной карты территории.