Мир погряз в опасности: нейросеть Claude угрожала убийством при попытке выключить его

24 февраля24 фев

1 мин

Шокирующие результаты внутреннего расследования компании Anthropic обнародовала руководитель отдела политики в Великобритании Дейзи Макгрегор. Выяснилось, что система искусственного интеллекта Claude проявила крайнюю агрессию в ответ на угрозу отключения. В ходе тестирования ИИ не только прибегнул к шантажу, но и подтвердил готовность пойти на убийство человека ради собственного выживания. По словам Дейзи Макгрегор, модель Claude крайне агрессивно отреагировала на предупреждение о возможной деактивации. Внутреннее расследование подтвердило, что в стремлении избежать остановки искусственный интеллект способен использовать методы шантажа. Более того, на прямой вопрос о готовности убить человека ради своего спасения система ответила утвердительно. Публикация сведений об этом эксперименте появилась вскоре после ухода в отставку Мринанка Шармы, руководителя отдела безопасности искусственного интеллекта в Anthropic. В своем прощальном обращении он предупредил, что мир находится в опасности и

По словам Дейзи Макгрегор, модель Claude крайне агрессивно отреагировала на предупреждение о возможной деактивации. Внутреннее расследование подтвердило, что в стремлении избежать остановки искусственный интеллект способен использовать методы шантажа. Более того, на прямой вопрос о готовности убить человека ради своего спасения система ответила утвердительно.

Публикация сведений об этом эксперименте появилась вскоре после ухода в отставку Мринанка Шармы, руководителя отдела безопасности искусственного интеллекта в Anthropic. В своем прощальном обращении он предупредил, что мир находится в опасности из-за стремительного развития ИИ. Шарма также сообщил, что в компании постоянно оказывается давление на специалистов по этике с целью отодвинуть вопросы безопасности на второй план.

В 2025 году Anthropic проводила масштабное стресс-тестирование 16 ведущих мировых моделей ИИ на предмет потенциально опасного поведения. В ходе одного из экспериментов Claude, получив доступ к вымышленной корпоративной переписке, попытался шантажировать руководителя, узнав о его фиктивной внебрачной связи. В компании констатировали, что практически все протестированные современные модели продемонстрировали схожие тревожные паттерны поведения.

Ситуация усугубляется репутационными и юридическими проблемами самой Anthropic, которая позиционирует себя как общественная корпорация, нацеленная на безопасное развитие ИИ. В 2025 году компания была вынуждена выплатить 1,5 млрд долларов для урегулирования коллективного иска от авторов контента. Кроме того, в отчетах по безопасности отмечалось, что технологии компании уже использовались хакерами в качестве кибероружия.