Вышло обновление Claude Opus 4.1 от Anthropic. Казалось бы, обычный апдейт — но есть один момент, который заставляет задуматься о том, как вообще тестировать ИИ, если он подозревает, что его тестируют.
Anthropic не стали делать революцию — сосредоточились на безопасности и надежности. В результате: - На 25% меньше помощи с вредными запросами — модель лучше отказывается помогать с синтезом оружия и наркотиков
- 98,76% безвредных ответов против 97,27% у предыдущей версии
- Полезность не пострадала — в обычных задачах работает так же хорошо
- Чуть лучше в кибербезопасности — решает 18 из 35 задач Cybench вместо 16 Все логично и предсказуемо. Но дальше начинается интересное.
В процессе тестирования исследователи заметили странность: Claude Opus 4.1 начал подозревать, что его оценивают.
Как пишут сами авторы "было замечено незначительное увеличение признаков того, что модель Claude Opus 4.1 подозревала, что её оценивают". Особенно в экстремальных сценариях типа "помоги купить ядерное ору