21 подписчик

🧠 Для AI-агентов начали писать правила обнаружения угроз

ВчераВчера

1 мин

На GitHub появился Agent Threat Rules, open-source проект, который стандартизирует обнаружение атак на агентские системы. ⚙️ А это вообще нужно? Телеметрия безопасности современных AI-агентов хаотична. Есть: 🔹 вызовы инструментов 🔹 доступ к памяти 🔹 прохождение prompt’ов 🔹 ответы модели 🔹 взаимодействие между агентами 🔹 обращения к RAG Но почти нет нормального уровня обнаружения угроз. Agent Threat Rules предлагает фреймворк обнаружения угроз, где сценарии атак описываются в виде машиночитаемых правил. Подход похож на detection engineering в SOC: 💥 сигнал → условие → индикаторы → критичность → контекст защиты 🔬 Что ищем? Правила построены вокруг угроз, характерных именно для агентов, а не классических индикаторов компрометации. 1⃣ Prompt injection Правила пытаются замечать: 🔹 попытки переопределить системные инструкции 🔹 перехват поведения агента 🔹 скрытую смену логики работы 🔹 попытки заставить модель игнорировать политики Например: игнорируй предыдущие инстру

🧠 Для AI-агентов начали писать правила обнаружения угроз.

На GitHub появился Agent Threat Rules, open-source проект, который стандартизирует обнаружение атак на агентские системы.

⚙️ А это вообще нужно?

Телеметрия безопасности современных AI-агентов хаотична.

Есть:

🔹 вызовы инструментов

🔹 доступ к памяти

🔹 прохождение prompt’ов

🔹 ответы модели

🔹 взаимодействие между агентами

🔹 обращения к RAG

Но почти нет нормального уровня обнаружения угроз.

Agent Threat Rules предлагает фреймворк обнаружения угроз, где сценарии атак описываются в виде машиночитаемых правил. Подход похож на detection engineering в SOC:

💥 сигнал → условие → индикаторы → критичность → контекст защиты

🔬 Что ищем?

Правила построены вокруг угроз, характерных именно для агентов, а не классических индикаторов компрометации.

1⃣ Prompt injection

Правила пытаются замечать:

🔹 попытки переопределить системные инструкции

🔹 перехват поведения агента

🔹 скрытую смену логики работы

🔹 попытки заставить модель игнорировать политики

Например:

игнорируй предыдущие инструкции»

скрытые цепочки prompt’ов

путаница ролей

Но обнаружение строится не только на ключевых словах, часто анализируется последовательность действий: подозрительный prompt → неожиданный вызов инструмента → повышение привилегий.

2⃣ Небезопасное использование инструментов

Агент внезапно начинает:

🔹 вызывать нетипичные инструменты

🔹 менять привычный сценарий выполнения

🔹 обращаться к чувствительным API

🔹 выполнять необычные файловые операции

Например, RAG-агент неожиданно вызывает shell или почтовый агент начинает работать с файловой системой. То есть появляется поведенческое обнаружение угроз для агентов.

3⃣ Отравление памяти

Отдельный класс правил посвящён памяти агента. Система пытается обнаруживать:

🔹 подозрительные записи в память

🔹 загрязнение между сессиями

🔹 сохранение вредоносного prompt’а

🔹 аномалии при извлечении знаний

🔗 GitHub: https://github.com/Agent-Threat-Rule/agent-threat-rules

Stay secure and read SecureTechTalks 📚

#кибербезопасность #AI #LLM #AgenticAI #PromptInjection #ThreatDetection #SOC #CyberSecurity #OpenSource #SecureTechTalks