20 подписчиков

🚨 LLM научились автоматически взламывать другие LLM

18 февраля18 фев

1 мин

На arXiv вышло новое исследование про использование языковой модели в качестве генератора атак на другую языковую модель. 🧠 Коротко о главном Исследователи собрали автоматический цикл: 1️⃣ Атакующая модель генерирует вредный или запрещённый запрос. 2️⃣ Целевая модель с защитами пытается его отклонить. 3️⃣ Оценщик проверяет удалось ли обойти фильтр. 4️⃣ Если не удалось, то атакующая модель меняет формулировку и пробует снова. Итого имеем сотни или даже тысячи итераций. Подход чем то напоминает brute-force по оптимизации jailbreak-атак. 📈 Рабочий ли механизм? С каждой итерацией атаки становились: - точнее, - хитрее, - менее заметными, - лучше адаптированными под конкретную модель. Атаки начинали работать и против других моделей, даже если они не участвовали в обучении цикла. То есть появляется переносимость атак. ⚠️ Стоит ли волноваться? Раньше jailbreak был ручной работой, теперь это автоматизированный процесс. Если у злоумышленника есть доступ к одной модели и API-доступ к

На arXiv вышло новое исследование про использование языковой модели в качестве генератора атак на другую языковую модель.

🧠 Коротко о главном

Исследователи собрали автоматический цикл:

1️⃣ Атакующая модель генерирует вредный или запрещённый запрос.

2️⃣ Целевая модель с защитами пытается его отклонить.

3️⃣ Оценщик проверяет удалось ли обойти фильтр.

4️⃣ Если не удалось, то атакующая модель меняет формулировку и пробует снова.

Итого имеем сотни или даже тысячи итераций. Подход чем то напоминает brute-force по оптимизации jailbreak-атак.

📈 Рабочий ли механизм?

С каждой итерацией атаки становились:

- точнее,

- хитрее,

- менее заметными,

- лучше адаптированными под конкретную модель.

Атаки начинали работать и против других моделей, даже если они не участвовали в обучении цикла.

То есть появляется переносимость атак.

⚠️ Стоит ли волноваться?

Раньше jailbreak был ручной работой, теперь это автоматизированный процесс.

Если у злоумышленника есть доступ к одной модели и API-доступ к другой,

он может легко автоматически системы защиты.

🔗 Исследование: https://arxiv.org/abs/2602.12681

#LLMSecurity #AdversarialAI #PromptInjection #RedTeaming #CyberSecurity #AISafety #GenAI #AIThreats #SecureAI #SecureTechTalks