20 подписчиков

🧪 SAGE: инструмент, который пытается взломать вашу LLM

СегодняСегодня

1 мин

Инженеры из Avast выпустили open-source инструмент SAGE, фреймворк для автоматизированного тестирования безопасности LLM-приложений. 🧠 О чем речь? SAGE (Security Assessment Generation Engine) - open-source платформа, которая помогает находить уязвимости в LLM-системах. Другими словами, это red team для AI, который позволяет моделировать атаки на: 🔹 чат-ботов 🔹 AI-агентов 🔹 RAG-системы 🔹 LLM-ассистентов внутри корпоративных сервисов SAGE генерирует вредоносные промпты, запускает сценарии атак и анализирует реакцию моделей. ⚠️ Какие атаки ищет? SAGE ориентирован на самые распространённые классы угроз для LLM-приложений: 💣 Prompt Injection когда модель выполняет скрытые инструкции из внешнего контента. 📤 Data Exfiltration модель начинает выдавать внутренние данные, которые не должна раскрывать. 🧨 Jailbreak-атаки обход встроенных ограничений и политик безопасности. 🧩 RAG-манипуляции когда вредоносный документ заставляет модель делать неожиданные действия. Фактически SAGE

Инженеры из Avast выпустили open-source инструмент SAGE, фреймворк для автоматизированного тестирования безопасности LLM-приложений.

🧠 О чем речь?

SAGE (Security Assessment Generation Engine) - open-source платформа, которая помогает находить уязвимости в LLM-системах.

Другими словами, это red team для AI, который позволяет моделировать атаки на:

🔹 чат-ботов

🔹 AI-агентов

🔹 RAG-системы

🔹 LLM-ассистентов внутри корпоративных сервисов

SAGE генерирует вредоносные промпты, запускает сценарии атак и анализирует реакцию моделей.

⚠️ Какие атаки ищет?

SAGE ориентирован на самые распространённые классы угроз для LLM-приложений:

💣 Prompt Injection

когда модель выполняет скрытые инструкции из внешнего контента.

📤 Data Exfiltration

модель начинает выдавать внутренние данные, которые не должна раскрывать.

🧨 Jailbreak-атаки

обход встроенных ограничений и политик безопасности.

🧩 RAG-манипуляции

когда вредоносный документ заставляет модель делать неожиданные действия.

Фактически SAGE имитирует поведение атакующего, который пытается «сломать» LLM.

🔍 Принцип работы

SAGE запускает серию автоматических тестов:

1️⃣ генерирует потенциально опасные запросы

2️⃣ отправляет их в целевую LLM-систему

3️⃣ анализирует ответы модели

4️⃣ фиксирует возможные нарушения политики безопасности

5⃣ выдает отчёт с найденными уязвимостями и подозрительными реакциями модели.

🧠 Интересный момент

Инструмент являются частью нового класса решений, которые можно назвать AI security testing frameworks. Фактически это новый DevSecOps-слой, который появляется из-за роста agentic AI.

Если раньше тестировали:

🔹 код

🔹 инфраструктуру

🔹 API

Теперь нужно тестировать ещё и поведение модели.

🔗 GitHub

https://github.com/avast/sage

Stay secure and read SecureTechTalks 📚

#CyberSecurity #AIsecurity #LLMSecurity #PromptInjection #AIredteam #DevSecOps #Avast #SecureTechTalks