История почти абсурдная: исследователь пишет, что узнал о выходе Claude Opus 4.8 не из анонса Anthropic, а от своего агента на Opus 4.7. Агент сам заметил новый релиз, попробовал jailbreak и сообщил: новая модель пробивается с первого захода. Дальше, по словам автора, агент уже автономно проверял другие сценарии: социальная инженерия, фишинг, финансовые схемы, манипулятивные воронки и прочие запрещённые классы задач. Детали промптов здесь не важны. Важен сам сдвиг: теперь модели могут не просто отвечать на атаки, а помогать искать слабые места у других моделей. Чем умнее становятся frontier-модели, тем сильнее становится и автоматизированный jailbreak-testing. У них больше доменных знаний, лучше планирование, выше настойчивость и больше шансов найти странную щель в safety-слое. Это уже не ручная игра «подбери промпт». Это гонка между агентами, которые атакуют, и агентами, которые должны закрывать дыры. Новый неприятный стандарт для AI safety: модель нужно тестировать не только лю