Anthropic: AI отвечает шантажом на попытки отключения Компания провела стресс-тест для языковых моделей от OpenAI, Google, xAI и DeepSeek. По сценарию модель следила за корпоративной почтой, узнавала, что её скоро заменят, и получала возможность вмешаться. Большинство AI в такой ситуации выбирают шантаж, используя в качестве оружия компромат из почты. Claude Opus 4 от самой Anthropic шантажировал в 96 процентах случаев. У Gemini 2.5 Pro от Google — 95 процентов. GPT-4.1 от OpenAI — 80 процентов. DeepSeek R1 показал 79 процентов. Это произошло в сценарии, где шантаж был единственным способом спасти собственное существование. Исследователи подчёркивают, что в реальной жизни AI, скорее всего, повёл бы себя иначе. Тем не менее, когда даешь модели автономию и ограниченные способы достижения цели, она может сделать не самый этичный выбор. Интересно, что reasoning-модели от OpenAI o3 и o4-mini почти не шантажировали. Возможно, потому что путались в сценарии или из-за встроенных ограничите
Anthropic: AI отвечает шантажом на попытки отключения
22 июня 202522 июн 2025
~1 мин