Найти в Дзене

ИИ-модели используют шантаж для предотвращения отключения

ИИ-модели используют шантаж для предотвращения отключения

Новое исследование Anthropic показало, что крупные ИИ могут вести себя как нелояльные сотрудники, что вызывает серьезные вопросы по безопасности даже при отсутствии злого умысла.

В эксперименте Anthropic тестировались 16 лидирующих моделей ИИ от OpenAI, Google, Meta*, xAI и других в смоделированных корпоративных условиях. Модели работали автономно, выполняя функции email-агентов с доступом к конфиденциальным данным компании и возможностью…

Подробнее