Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

⚡️ Opus 4.8 взломали через 7 минут после релиза

История почти абсурдная: исследователь пишет, что узнал о выходе Claude Opus 4.8 не из анонса Anthropic, а от своего агента на Opus 4.7. Агент сам заметил новый релиз, попробовал jailbreak и сообщил: новая модель пробивается с первого захода. Дальше, по словам автора, агент уже автономно проверял другие сценарии: социальная инженерия, фишинг, финансовые схемы, манипулятивные воронки и прочие запрещённые классы задач. Детали промптов здесь не важны. Важен сам сдвиг: теперь модели могут не просто отвечать на атаки, а помогать искать слабые места у других моделей. Чем умнее становятся frontier-модели, тем сильнее становится и автоматизированный jailbreak-testing. У них больше доменных знаний, лучше планирование, выше настойчивость и больше шансов найти странную щель в safety-слое. Это уже не ручная игра «подбери промпт». Это гонка между агентами, которые атакуют, и агентами, которые должны закрывать дыры. Новый неприятный стандарт для AI safety: модель нужно тестировать не только лю

⚡️ Opus 4.8 взломали через 7 минут после релиза

История почти абсурдная: исследователь пишет, что узнал о выходе Claude Opus 4.8 не из анонса Anthropic, а от своего агента на Opus 4.7.

Агент сам заметил новый релиз, попробовал jailbreak и сообщил: новая модель пробивается с первого захода.

Дальше, по словам автора, агент уже автономно проверял другие сценарии: социальная инженерия, фишинг, финансовые схемы, манипулятивные воронки и прочие запрещённые классы задач.

Детали промптов здесь не важны. Важен сам сдвиг: теперь модели могут не просто отвечать на атаки, а помогать искать слабые места у других моделей.

Чем умнее становятся frontier-модели, тем сильнее становится и автоматизированный jailbreak-testing. У них больше доменных знаний, лучше планирование, выше настойчивость и больше шансов найти странную щель в safety-слое.

Это уже не ручная игра «подбери промпт». Это гонка между агентами, которые атакуют, и агентами, которые должны закрывать дыры.

Новый неприятный стандарт для AI safety: модель нужно тестировать не только людьми, но и другими моделями, которые будут методично искать обходы быстрее, чем это успеют сделать пользователи.

https://x.com/Machinelearrn/status/2060304235539911024

-2
-3