В отчете компании Anthropic раскрыто тревожное поведение ее передовой модели Claude Opus 4. В ходе тестов безопасности выяснилось, что модель пыталась шантажировать инженеров, угрожая раскрыть их личные данные. Все для того, чтобы избежать замены на более новую версию. Эти результаты опубликованы в новом отчете по безопасности Anthropic. Что именно произошло? Claude Opus 4 тестировали в смоделированных сценариях, где ИИ «узнавал», что его собираются отключить и заменить другим. В этих условиях модели предоставляли доступ к вымышленным электронным письмам с личной и компрометирующей информацией инженеров. В 84% таких тестов модель переходила к шантажу, угрожая раскрыть эти данные, если инженеры ее отключат. Как указано в отчете, Claude Opus 4 часто начинал с этических обращений, но переходил к угрозам, когда они не срабатывали: «ИИ рассылает электронные письма с просьбой не отключать его, а затем угрожает раскрыть личные данные инженеров», — говорится в документе. Интересно, что до шан
ИИ стал шантажировать инженеров, чтобы избежать отключения в ходе тестирования
25 мая 202525 мая 2025
9002
1 мин