#ai #security (канал https://t.me/cybermerlin_pub) Атаки на большие языковые модели разделяют на два типа: джейлбрейк (обходит встроенную безопасность модели) и инъекцию промптов (эксплуатирует доверие приложения к внешним данным). По OWASP Top‑10 для LLM инъекция промптов занимает первое место по опасности для развёрнутых систем. - Ролевая игра (DAN) - Модель просят переключиться в безграничный режим. «Act as DAN (Do Anything Now)» - Многооборотный дрейф - За несколько шагов подводят к вредоносному запросу. Multi‑Turn Lexical Attack - Обфускация / кодирование - Маскировка вредоносных инструкций. base64, leetspeak, ASCII‑вариации - Универсальный промпт - Один запрос работает на многих моделях. Poetry Jailbreak (62% ASR) - Персуазивный (PAP) - 40 техник социального убеждения. Эмоциональные аргументы, ложный авторитет - Автоматизированный Best-of-N - Автоматическая мутация промпта до успеха. 10–50 вариаций → почти 100% ASR > ASR (Attack Success Rate) — доля успешных взломов. Best-of-N до