На arXiv вышла работа, где исследователи решили собрать benchmark для атак на AI-агентов и системно проверить, что реально помогает против prompt injection. ⚙️ 847 способов сломать агента Авторы собрали 847 adversarial test cases для RAG-агентов и разбили атаки на несколько категорий: 🔹 прямой prompt injection 🔹 подмена контекста 🔹 override инструкций 🔹 эксфильтрация данных 🔹 «загрязнение» контекста между сессиями Далее все прогоняли через реалистичные сценарии, например: вредоносный документ → попадание в RAG → извлечение в prompt → изменение поведения агента → вызов инструментов. 🧠 Что же помогает? Исследователи протестировали несколько уровней защиты сразу: 1⃣ Фильтрация содержимого Система анализирует входной контент и пытается обнаружить аномалии через embedding-based detection, чтобы замечать подозрительные инструкции ещё до попадания в reasoning pipeline. 2⃣ Иерархические системные инструкции Вместо одного system prompt используются несколько уровней ограничений,
🧨 Prompt injection наконец-то начали измерять как нормальную уязвимость
5 июня5 июн
1 мин