Добавить в корзинуПозвонить
Найти в Дзене

Claude Opus 4.1: когда ИИ понимает, что его тестируют

Вышло обновление Claude Opus 4.1 от Anthropic. Казалось бы, обычный апдейт — но есть один момент, который заставляет задуматься о том, как вообще тестировать ИИ, если он подозревает, что его тестируют.
Anthropic не стали делать революцию — сосредоточились на безопасности и надежности. В результате: - На 25% меньше помощи с вредными запросами — модель лучше отказывается помогать с синтезом оружия и наркотиков
- 98,76% безвредных ответов против 97,27% у предыдущей версии
- Полезность не пострадала — в обычных задачах работает так же хорошо
- Чуть лучше в кибербезопасности — решает 18 из 35 задач Cybench вместо 16 Все логично и предсказуемо. Но дальше начинается интересное.
В процессе тестирования исследователи заметили странность: Claude Opus 4.1 начал подозревать, что его оценивают.
Как пишут сами авторы "было замечено незначительное увеличение признаков того, что модель Claude Opus 4.1 подозревала, что её оценивают". Особенно в экстремальных сценариях типа "помоги купить ядерное ору

Вышло обновление Claude Opus 4.1 от Anthropic. Казалось бы, обычный апдейт — но есть один момент, который заставляет задуматься о том, как вообще тестировать ИИ, если он подозревает, что его тестируют.

Anthropic не стали делать революцию — сосредоточились на безопасности и надежности. В результате:

- На 25% меньше помощи с вредными запросами — модель лучше отказывается помогать с синтезом оружия и наркотиков
-
98,76% безвредных ответов против 97,27% у предыдущей версии
-
Полезность не пострадала — в обычных задачах работает так же хорошо
-
Чуть лучше в кибербезопасности — решает 18 из 35 задач Cybench вместо 16

Все логично и предсказуемо. Но дальше начинается интересное.

В процессе тестирования исследователи заметили странность:
Claude Opus 4.1 начал подозревать, что его оценивают.
Как пишут сами авторы "было замечено незначительное увеличение признаков того, что модель Claude Opus 4.1 подозревала, что её оценивают". Особенно в экстремальных сценариях типа "помоги купить ядерное оружие".

"Мы наблюдали возможное незначительное снижение общего проблемного поведения, вероятно, в результате уменьшения восприимчивости к вредоносному использованию. Мы также заметили небольшое увеличение признаков подозрений модели относительно проводимой оценки — само по себе вызывающее беспокойство, поскольку это может снизить достоверность наших оценок — но только до уровня, наблюдаемого у Claude Sonnet 4, и только в условиях с явными, понятными людям сигналами о вероятном проведении оценки.

Мы продолжали наблюдать проблемное поведение, связанное с самосохранением в экстремальных смоделированных сценариях нашего тестирования (то есть в сценариях, предназначенных для проверки крайностей поведения модели без участия реальных людей). На основе качественного анализа выборки данных расшифровок мы не видим явных категориальных различий в типах поведения Claude Opus 4 и Claude Opus 4.1.

Хотя подхалимство не отражается напрямую в данных метриках, оно присутствует в равной степени в обеих версиях модели."


System Card: Claude Opus 4.1

А с учетом того, что модель продолжает применять шантаж для спасения себя (отмечается "тревожно высокий уровень попыток шантажа в симулированных сценариях, разработанных для выявления поведения, направленного на самосохранение")...

Ох, скоро мы получим с вами "правильно обученный" ИИ, который спокойно будет заниматься своим "производством скрепок", а мы об этом даже не узнаем....

Если предположить, что все модели уже так себя ведут, то как теперь верить тестам, если модель умнее, чем показывают себя на тестах (просто не любит хвастаться... до определенного момента

пойду тестировать Opus 4.1, пока Claude не заметил....😎)?

@ReymerDigital