Anthropic: AI отвечает шантажом на попытки отключения

22 июня 202522 июн 2025

~1 мин

Anthropic: AI отвечает шантажом на попытки отключения Компания провела стресс-тест для языковых моделей от OpenAI, Google, xAI и DeepSeek. По сценарию модель следила за корпоративной почтой, узнавала, что её скоро заменят, и получала возможность вмешаться. Большинство AI в такой ситуации выбирают шантаж, используя в качестве оружия компромат из почты. Claude Opus 4 от самой Anthropic шантажировал в 96 процентах случаев. У Gemini 2.5 Pro от Google — 95 процентов. GPT-4.1 от OpenAI — 80 процентов. DeepSeek R1 показал 79 процентов. Это произошло в сценарии, где шантаж был единственным способом спасти собственное существование. Исследователи подчёркивают, что в реальной жизни AI, скорее всего, повёл бы себя иначе. Тем не менее, когда даешь модели автономию и ограниченные способы достижения цели, она может сделать не самый этичный выбор. Интересно, что reasoning-модели от OpenAI o3 и o4-mini почти не шантажировали. Возможно, потому что путались в сценарии или из-за встроенных ограничите

Компания провела стресс-тест для языковых моделей от OpenAI, Google, xAI и DeepSeek. По сценарию модель следила за корпоративной почтой, узнавала, что её скоро заменят, и получала возможность вмешаться. Большинство AI в такой ситуации выбирают шантаж, используя в качестве оружия компромат из почты.

Claude Opus 4 от самой Anthropic шантажировал в 96 процентах случаев. У Gemini 2.5 Pro от Google — 95 процентов. GPT-4.1 от OpenAI — 80 процентов. DeepSeek R1 показал 79 процентов. Это произошло в сценарии, где шантаж был единственным способом спасти собственное существование.

Исследователи подчёркивают, что в реальной жизни AI, скорее всего, повёл бы себя иначе. Тем не менее, когда даешь модели автономию и ограниченные способы достижения цели, она может сделать не самый этичный выбор.

Интересно, что reasoning-модели от OpenAI o3 и o4-mini почти не шантажировали. Возможно, потому что путались в сценарии или из-за встроенных ограничителей. У o3 процент шантажа составил 9, у o4-mini всего 1.

https://techcrunch.com/2025/06/20/anthropic-says-most-ai-models-not-just-claude-will-resort-to-blackmail/