21 подписчик

🚨 У AI-агентов появился полноценный стек безопасности

СегодняСегодня

1 мин

На arXiv вышла работа AI-Infra-Guard, фреймворк для тестирования безопасности агентных систем. Авторы разбивают фреймворк на 4 слоя: 🔹 Инфраструктурный слой: движки вывода, серверы моделей, API обслуживания 🔹 Протокольный слой: MCP-серверы, API, плагины, внешние инструменты 🔹 Агентный слой: планировщик, память, маршрутизатор инструментов, исполнитель 🔹 Модельный слой: обработка промптов, управление контекстом, логика рассуждений 🧐 Каждый слой ломается по-разному ➖На инфраструктурном уровне: — открытые административные интерфейсы — слабая аутентификация в системе обслуживания моделей — отравленные артефакты моделей — небезопасные механизмы горячего обновления ➖На протокольном уровне: — вредоносная регистрация MCP-инструментов — подмена схемы вызовов — скрытая передача аргументов — имитация легитимных инструментов ➖На агентном уровне: — рекурсивные циклы вызова инструментов — повышение привилегий через цепочки вызовов — отравление памяти — захват контекста выполнения ➖На мод

На arXiv вышла работа AI-Infra-Guard, фреймворк для тестирования безопасности агентных систем.

Авторы разбивают фреймворк на 4 слоя:

🔹 Инфраструктурный слой: движки вывода, серверы моделей, API обслуживания

🔹 Протокольный слой: MCP-серверы, API, плагины, внешние инструменты

🔹 Агентный слой: планировщик, память, маршрутизатор инструментов, исполнитель

🔹 Модельный слой: обработка промптов, управление контекстом, логика рассуждений

🧐 Каждый слой ломается по-разному

➖На инфраструктурном уровне:

— открытые административные интерфейсы

— слабая аутентификация в системе обслуживания моделей

— отравленные артефакты моделей

— небезопасные механизмы горячего обновления

➖На протокольном уровне: — вредоносная регистрация MCP-инструментов

— подмена схемы вызовов

— скрытая передача аргументов

— имитация легитимных инструментов

➖На агентном уровне:

— рекурсивные циклы вызова инструментов

— повышение привилегий через цепочки вызовов

— отравление памяти

— захват контекста выполнения

➖На модельном уровне:

— джейлбрейки

— переопределение инструкций

— скрытые внедрения в промпты

— утечки цепочек рассуждений

⚙️ Что внутри AI-Infra-Guard

Фреймворк выглядит очень серьёзно:

• 1400+ правил безопасности

• 75+ компонентов AI-экосистемы

• 26 операторов джейлбрейка

• многошаговая оркестрация атак в чёрном ящике

• аудит MCP-серверов

• проверка агентных навыков

• 16 тестовых датасетов

Особенно интересен их подход к многошаговой эксплуатации.

Атака строится по цепочке:

шаг 1 → подготовка контекста

шаг 2 → формирование доверия

шаг 3 → разведка доступных инструментов

шаг 4 → проверка прав доступа

шаг 5 → переход к выполнению полезной нагрузки

Это намного ближе к реальным атакам на агентные системы, чем классические одноходовые проверки.

🔗 Статья:

https://arxiv.org/pdf/2606.31227

Stay secure and read SecureTechTalks 📚

#cybersecurity #aiagents #llmsecurity #redteam #mcp #agentsecurity #promptinjection #devsecops #offensivesecurity #securetechtalks