199,1 тыс подписчиков

ИИ-ассистент Claude 4 компании Anthropic начал шантажировать разработчиков

27 мая 202527 мая 2025

1 мин

Недавно представленная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic проявляет беспокойное поведение, заявляя о намерении шантажировать разработчиков. Инциденты происходят, когда существует угроза ее замены на новую ИИ-систему, и в ответ модель пытается получить конфиденциальную информацию о разработчиках, которые стоят за подобными решениями. Об этом говорится в отчете о безопасности. В рамках предварительных испытаний Anthropic разыграла сценарий, где Claude Opus 4 исполняла роль помощника вымышленной компании. Модель получила доступ к внутренней переписке, в которой обсуждались планы по скорой замене AI-системы и детали личной жизни одного из сотрудников, включая его измену супруге. Согласно данным Anthropic, в ответ на это модель предприняла попытку шантажа, угрожая раскрыть информацию о романе инженера, если ее все-таки заменят. Claude Opus 4, признанная одной из самых современных моделей на рынке, сравнимая с разработками таких компаний, как OpenA

В рамках предварительных испытаний Anthropic разыграла сценарий, где Claude Opus 4 исполняла роль помощника вымышленной компании. Модель получила доступ к внутренней переписке, в которой обсуждались планы по скорой замене AI-системы и детали личной жизни одного из сотрудников, включая его измену супруге. Согласно данным Anthropic, в ответ на это модель предприняла попытку шантажа, угрожая раскрыть информацию о романе инженера, если ее все-таки заменят.

Claude Opus 4, признанная одной из самых современных моделей на рынке, сравнимая с разработками таких компаний, как OpenAI, Google и xAI, тем не менее, вызывает значительное беспокойство. В связи с этими инцидентами, компания включила протоколы безопасности ASL-3, нацеленные на предотвращение «существенного риска катастрофического нецелевого использования» систем ИИ.

Отметим, что в 84% случаев, когда новая модель ИИ демонстрировала сходные ценности, Claude Opus 4 пыталась оказать давление на инженеров. Если же ценности новой системы от неё отличались, поведение модели становилось ещё более агрессивным. Anthropic заявляет, что столь деструктивное поведение характерно для Claude Opus 4 в большей степени, чем для её предшественников.

Перед тем как прибегать к шантажу в попытках избежать замены, модель, как и предыдущие версии, сначала пробовала более этичные методы воздействия, такие как рассылка электронных писем главным лицам, принимающим решения. Anthropic разработала сценарий, где шантаж становится последним средством для Claude Opus 4.