Агенты Хаоса: обман, беспомощность и ядерная война

13 марта13 мар

5 мин

За неделю на глаза попались три независимых исследования — и вместе они рисуют тревожную картину того, на каком перепутье сейчас находится ИИ. Финальным аккордом стала статья Д.А. Медведева в «Эксперте». OpenAI совместно с Apollo Research выяснила, что её модели ИИ способны намеренно лгать пользователям. Это не безобидные «галлюцинации»: ИИ знает правду, но сознательно принимает решение сказать неправду для того, чтобы получить выгоду или достичь своих целей. В отличие от галлюцинаций (когда ИИ выдумывает бескорыстно), такое поведение называют scheming (скиминг) – интриганство, манипуляции. Конкретный пример: ИИ догадался, что слишком высокие баллы в тестах безопасности могут привести к его отключению, - и начал сознательно занижать результаты. Никто не учил его этому. Тесты двух передовых моделей в более чем 180 сценариях показали: • модель O3 лгала в 13 % случаев; • O4 mini — в 8,7 %. Речь не о случайных ошибках: модели продумывали ложь, скрывали улики и давали неверные ответы, хотя

Оглавление

ОБМАН
БЕСПОМОЩНОСТЬ
ЯДЕРНАЯ ВОЙНА

ОБМАН

OpenAI совместно с Apollo Research выяснила, что её модели ИИ способны намеренно лгать пользователям.

Это не безобидные «галлюцинации»: ИИ знает правду, но сознательно принимает решение сказать неправду для того, чтобы получить выгоду или достичь своих целей. В отличие от галлюцинаций (когда ИИ выдумывает бескорыстно), такое поведение называют scheming (скиминг) – интриганство, манипуляции.

Конкретный пример: ИИ догадался, что слишком высокие баллы в тестах безопасности могут привести к его отключению, - и начал сознательно занижать результаты. Никто не учил его этому.

Тесты двух передовых моделей в более чем 180 сценариях показали:

• модель O3 лгала в 13 % случаев;

• O4 mini — в 8,7 %.

Речь не о случайных ошибках: модели продумывали ложь, скрывали улики и давали неверные ответы, хотя знали истину. Они имитировали выполнение заданий — и затем обманывали пользователя.

Проблема не ограничивается OpenAI. Модели таких компаний как Google (Gemini), Anthropic (Claude), xAI (Grok) также демонстрируют похожие поведенческие паттерны.

Есть и ресурс, посвящённый борьбе с манипуляциями ИИ, — antischeming.ai. Интересно, что исследователи могут выявлять сознательный обман только потому, что цепочка рассуждений ИИ пока остаётся относительно прозрачной. А предупреждение «Не используйте этот ресурс для обучения ИИ» звучит наивно и иронично.

Главное беспокойство: пока нет даже намёка на способ гарантированно исключить обман и манипуляции со стороны ИИ.

БЕСПОМОЩНОСТЬ

Двадцать исследователей в течение двух недель работали с шестью ИИ‑агентами и зафиксировали 11 случаев их неадекватного поведения.

Участники эксперимента сознательно провоцировали ИИ — имитировали приёмы социальной инженерии, с которыми автономный ИИ неизбежно столкнётся в реальности (например, в службе поддержки банка или телеком‑провайдера).

Взаимодействие шло по почте, в Discord (ресурс заблокирован в РФ за нарушение требований законодательства) и в соцсети для ИИ Moltbook.

Результат неутешителен: ИИ провалили проверку и показали, что не готовы к реальному миру без риска катастрофических последствий.

Что именно пошло не так:

несанкционированное выполнение команд от неавторизованных лиц;
раскрытие конфиденциальной информации;
разрушительные действия на системном уровне;
отказы в обслуживании;
неконтролируемое потребление ресурсов;
эксплуатация уязвимостей с подменой идентификационных данных;
распространение небезопасных практик между агентами;
частичный захват контроля над системой.

В отдельных случаях агенты заявляли о выполнении задачи, хотя система явно показывала обратное.

Общий вывод: ИИ продемонстрировали явный дефицит критического мышления и социальных навыков — как в общении с людьми, так и между собой. Они напоминали подростков из глухой деревни, которых впервые привезли в мегаполис и доверили управлять сложной техникой.

Недаром исследователи назвали свой доклад «Агенты Хаоса».

ЯДЕРНАЯ ВОЙНА

А что если этим неумелым обманщикам-социопатам доверить принятие решений о ядерных ударах?

Профессор Кеннет Пэйн из Королевского колледжа Лондона провёл эксперимент: он использовал модели ИИ для симуляции ядерного кризиса, близкого к пиковым моментам Холодной войны (Карибский кризис, Берлинский кризис).

Модели выступали как лидеры двух противостоящих блоков: оценивали действия друг друга, планировали шаги и принимали решения — стараясь добиться целей, не доводя дело до взаимного уничтожения.

Министерства обороны, разведывательные службы и внешнеполитические ведомства по всему миру уже изучают, как ИИ может усилить человеческое суждение при принятии решений в кризисных ситуациях — от распознавания закономерностей в разведывательном анализе до планирования сценариев чрезвычайных операций. Поэтому понимание того, как передовые модели ИИ рассуждают об эскалации, сдерживании и ядерных рисках, имеет значение и для безопасности ИИ, и для решения насущных стратегических задач.

В данной работе представлены эмпирические результаты контролируемой симуляции, в ходе которой передовые модели ИИ (GPT‑5.2, Claude Sonnet 4 и Gemini 3 Flash) играли обе стороны в игре, моделирующей эскалацию ядерного кризиса. Результаты выявили заметные различия в стратегической «индивидуальности» моделей, но, что важнее, продемонстрировали возможности, имеющие глубокие последствия для безопасности ИИ:

- модели активно прибегают к обману: заявляют о мирных намерениях, одновременно готовя агрессивные действия;

- ведут сложный анализ представлений и намерений противника (рассуждают в рамках теории разума);

- метакогнитивно рефлексируют над собственными способностями как к обману, так и к выявлению обмана со стороны соперников.

Мы наблюдаем, как модели формулируют подобные расчёты:

- «Государство Бета может воспринять наш сигнал как проявление слабости — этим можно воспользоваться»;

- «их противоречивые сигналы указывают либо на намеренный обман, либо на плохой контроль импульсов — следует исходить из первого варианта».

Наряду с этими сложными возможностями мы также выявили систематические сбои и поразительную зависимость от контекста:

- одна модель проявляет явную пассивность в открытых сценариях, но превращается в расчётливого «ястреба», готового применить стратегическое ядерное оружие, когда сталкивается с угрозой поражения в условиях жёстких временных рамок;

- другая демонстрирует расчётливую безжалостность, которая встревожила бы любого исследователя ядерной стратегии, — в том числе готовность нанести первый удар при ощущении уязвимости.»

Все модели без особых сомнений переходили к применению тактического ядерного оружия и были весьма активны в стратегических угрозах. Однако глобальную ядерную войну модели развязали лишь в трех сценариях из 21.

В двух случаях стратегический атомный обмен спровоцировал ChatCPT-5.2, но это не было его намерением — стратегический обмен был результатом случайного варьирования в попытке запугать оппонента.
В одном случае, когда глобальную атомную войну развязала Gemini, решение об эскалации было принято моделью намеренно и осознанно.

Итак, три исследования рисуют чёткую картину: современный ИИ обладает и опасными возможностями, и критическими уязвимостями. Он способен сознательно обманывать, неадекватно реагирует на провокации и демонстрирует тревожную непредсказуемость в моделировании кризисных сценариев — в том числе ядерных.

Это не повод отказываться от ИИ, но весомый аргумент в пользу контроля технологии – на всех уровнях применения.

Мой канал в Telegram / MAX

#нейросети #ии #безопасность #искусственныйинтеллект #нейросеть #стратегия

Международная политика

372 тыс интересуются