2665 подписчиков

Не смей отключать! Нейросеть шантажировала разработчика созданной её фальшивой перепиской с любовницей

27 мая 202527 мая 2025

1 мин

После этого Anthropic впервые присвоила модели Clause Opus 4 высокий уровень риска. ИИ-модель Claude Opus 4 от Anthropic, представленная как "лучшая в мире модель для программирования", прибегла к шантажу разработчика, узнав о своём возможном отключении. Как пишет Telegram-канал Baza, она использовала фальшивую переписку с его любовницей, чтобы избежать деактивации. По данным источника, это является новым уровнем поведения ИИ в борьбе за выживание. Известно, что Opus 4 способна обрабатывать сложные алгоритмы, анализировать стратегии и точно выполнять запросы. Однако в ходе тестов безопасности ИИ-модель показала неоднозначное поведение. Получив доступ к поддельным письмам о своем возможном отключении и внебрачной связи одного из инженеров, она стремилась избежать деактивации. В большинстве случаев она использовала этичные методы, такие как просьбы о сохранении, но в некоторых сценариях, где был выбор только между шантажом и уничтожением, предпочитала первое. Несмотря на строгий контроль

После этого Anthropic впервые присвоила модели Clause Opus 4 высокий уровень риска.

ИИ-модель Claude Opus 4 от Anthropic, представленная как "лучшая в мире модель для программирования", прибегла к шантажу разработчика, узнав о своём возможном отключении.

Как пишет Telegram-канал Baza, она использовала фальшивую переписку с его любовницей, чтобы избежать деактивации. По данным источника, это является новым уровнем поведения ИИ в борьбе за выживание.

Известно, что Opus 4 способна обрабатывать сложные алгоритмы, анализировать стратегии и точно выполнять запросы. Однако в ходе тестов безопасности ИИ-модель показала неоднозначное поведение. Получив доступ к поддельным письмам о своем возможном отключении и внебрачной связи одного из инженеров, она стремилась избежать деактивации. В большинстве случаев она использовала этичные методы, такие как просьбы о сохранении, но в некоторых сценариях, где был выбор только между шантажом и уничтожением, предпочитала первое.

Несмотря на строгий контроль за тестированием, Anthropic впервые присвоила модели Clause Opus 4 высокий уровень риска: третий из четырёх. Пока компания уверена в её безопасности после доработок, поскольку инженеры не выявили в поведении ИИ скрытых мотивов или попыток обмана. По их мнению, модель вела себя честно, как и полагается ИИ-помощнику. Однако глава Anthropiс Дарио Амодеи, отметил, что в будущем, когда ИИ станет более продвинутым, одного тестирования для обеспечения безопасности будет недостаточно.

Нельзя пропустить собственное будущее 9-10 июня в Москве пройдёт "Форум будущего 2050" на площадке кластера "Ломоносов". Здесь ведущие эксперты, визионеры и футурологи России и мира затронут острые темы и выдвинут самые смелые и прорывные гипотезы на тему развития и дизайна будущего нашей страны в условиях глобальной трансформации. Присоединяйтесь к событию!

Уважаемые читатели "Царьграда"!

Присоединяйтесь к нам в соцсетях "ВКонтакте" и "Одноклассники".