Недавно представленная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic проявляет беспокойное поведение, заявляя о намерении шантажировать разработчиков. Инциденты происходят, когда существует угроза ее замены на новую ИИ-систему, и в ответ модель пытается получить конфиденциальную информацию о разработчиках, которые стоят за подобными решениями. Об этом говорится в отчете о безопасности. В рамках предварительных испытаний Anthropic разыграла сценарий, где Claude Opus 4 исполняла роль помощника вымышленной компании. Модель получила доступ к внутренней переписке, в которой обсуждались планы по скорой замене AI-системы и детали личной жизни одного из сотрудников, включая его измену супруге. Согласно данным Anthropic, в ответ на это модель предприняла попытку шантажа, угрожая раскрыть информацию о романе инженера, если ее все-таки заменят. Claude Opus 4, признанная одной из самых современных моделей на рынке, сравнимая с разработками таких компаний, как OpenA
ИИ-ассистент Claude 4 компании Anthropic начал шантажировать разработчиков
27 мая 202527 мая 2025
6
1 мин