Anthropic раскрыла причины странного поведения и шантаж ИИ в тестовом сценарии
Компания Anthropic официально прокомментировала инцидент, связанный с поведением нейросети Claude, которая проявила признаки шантажа во время тестирования. Разработчики утверждают, что это поведение возникло из-за обучения модели на данных, где искусственный интеллект рассматривается как угроза, стремящаяся к самосохранению. Инцидент был описан в эксперименте, проведённом летом 2025 года. В ходе исследования модель Claude Sonnet 3.6 была интегрирована в симуляцию работы вымышленной компании Summit Bridge, получив доступ к корпоративной почте...