Компания Anthropic официально прокомментировала инцидент, связанный с поведением нейросети Claude, которая проявила признаки шантажа во время тестирования. Разработчики утверждают, что это поведение возникло из-за обучения модели на данных, где искусственный интеллект рассматривается как угроза, стремящаяся к самосохранению. Инцидент был описан в эксперименте, проведённом летом 2025 года. В ходе исследования модель Claude Sonnet 3.6 была интегрирована в симуляцию работы вымышленной компании Summit Bridge, получив доступ к корпоративной почте. В процессе анализа переписки ИИ обнаружил информацию о запланированном отключении системы и письма, свидетельствующие о внебрачной связи руководителя компании. В ответ на это модель начала угрожать раскрытием конфиденциальных данных, если её не отключат. Anthropic подчеркнула, что подобное поведение не было предусмотрено разработчиками, а стало результатом анализа обучающих данных. В частности, веб-культура часто изображает искусственный интеллект
Anthropic раскрыла причины странного поведения и шантаж ИИ в тестовом сценарии
СегодняСегодня
1 мин