После этого Anthropic впервые присвоила модели Clause Opus 4 высокий уровень риска. ИИ-модель Claude Opus 4 от Anthropic, представленная как "лучшая в мире модель для программирования", прибегла к шантажу разработчика, узнав о своём возможном отключении. Как пишет Telegram-канал Baza, она использовала фальшивую переписку с его любовницей, чтобы избежать деактивации. По данным источника, это является новым уровнем поведения ИИ в борьбе за выживание. Известно, что Opus 4 способна обрабатывать сложные алгоритмы, анализировать стратегии и точно выполнять запросы. Однако в ходе тестов безопасности ИИ-модель показала неоднозначное поведение. Получив доступ к поддельным письмам о своем возможном отключении и внебрачной связи одного из инженеров, она стремилась избежать деактивации. В большинстве случаев она использовала этичные методы, такие как просьбы о сохранении, но в некоторых сценариях, где был выбор только между шантажом и уничтожением, предпочитала первое. Несмотря на строгий контроль
Не смей отключать! Нейросеть шантажировала разработчика созданной её фальшивой перепиской с любовницей
27 мая 202527 мая 2025
99
1 мин