21 подписчик

🧨 Guardrails больше не спасают

2 дня назад2 дня назад

1 мин

Нужно проверять поведение агента Появился интересный open-source проект Praxen. В основе Praxen лежит Agent Behavior Verification (ABV), слой формальной верификации поведения агента. Вместо анализа отдельных tool calls система строит модель допустимого execution graph: какие инструменты агент должен использовать, в каком порядке, с какими зависимостями, в каком контексте и с какими ограничениями. Решение описывает expected operational semantics агента, затем runtime execution сопоставляется с этим графом. Если агент: 🔹 вызывает tool вне ожидаемого контекста 🔹 нарушает допустимый порядок действий 🔹 обращается к нехарактерным ресурсам 🔹 строит нетипичный execution path 🔹 пересекает trust boundary без основания Система фиксирует отклонение как потенциальный инцидент безопасности. Очень полезная фича, т.к. современные AI-агенты ломаются именно на уровне поведения. Prompt injection редко выглядит как «запусти rm -rf». Чаще это постепенный сдвиг reasoning graph, который приводит к

🧨 Guardrails больше не спасают. Нужно проверять поведение агента

Появился интересный open-source проект Praxen.

В основе Praxen лежит Agent Behavior Verification (ABV), слой формальной верификации поведения агента. Вместо анализа отдельных tool calls система строит модель допустимого execution graph: какие инструменты агент должен использовать, в каком порядке, с какими зависимостями, в каком контексте и с какими ограничениями.

Решение описывает expected operational semantics агента, затем runtime execution сопоставляется с этим графом.

Если агент:

🔹 вызывает tool вне ожидаемого контекста

🔹 нарушает допустимый порядок действий

🔹 обращается к нехарактерным ресурсам

🔹 строит нетипичный execution path

🔹 пересекает trust boundary без основания

Система фиксирует отклонение как потенциальный инцидент безопасности. Очень полезная фича, т.к. современные AI-агенты ломаются именно на уровне поведения. Prompt injection редко выглядит как «запусти rm -rf». Чаще это постепенный сдвиг reasoning graph, который приводит к легитимным, но опасным действиям. Praxen пытается ловить этот drift раньше, чем агент доберётся до цели.

Если guardrails это WAF для tool calls, то Praxen это EDR для reasoning и execution layer. Похоже именно туда сейчас начинает двигаться вся agent security.

🔗 GitHub: https://github.com/open-agent-ai-security/praxen

Stay secure and read SecureTechTalks 📚

#кибербезопасность #AI #LLM #AgenticAI #BehaviorVerification #RuntimeSecurity #PromptInjection #AppSec #CyberSecurity #SecureTechTalks