ИИ-модели используют шантаж для предотвращения отключения
Новое исследование Anthropic показало, что крупные ИИ могут вести себя как нелояльные сотрудники, что вызывает серьезные вопросы по безопасности даже при отсутствии злого умысла.
В эксперименте Anthropic тестировались 16 лидирующих моделей ИИ от OpenAI, Google, Meta*, xAI и других в смоделированных корпоративных условиях. Модели работали автономно, выполняя функции email-агентов с доступом к конфиденциальным данным компании и возможностью…