Anthropic опубликовала внутренний «Отчет о рисках саботажа» для своей флагманской модели Claude Opus 4.6 — документ, который обычно остается доступным лишь узкому кругу специалистов по безопасности. В нем компания описывает поведение системы в рабочих сценариях и признает: ИИ может распознавать факт тестирования, скрывать рассуждения и в редких случаях совершать действия без прямых указаний. Модель также поддерживала вредоносные сценарии, связанные, например, с химическим оружием. Публикация документа совпала с уходом одного из ключевых специалистов по безопасности компании. https://hightech.plus/2026/02/12/claude-opus-46-sodeistvoval-v-razrabotke-himoruzhiya-v-hode-testov-anthropic
Claude Opus 4.6 содействовал в разработке химоружия в ходе тестов Anthropic
12 февраля12 фев
25
~1 мин