218 подписчиков

🧩 Безопасность LLM-агентов: когда атакующий всегда делает второй ход

3 ноября 20253 ноя 2025

3 мин

На прошлой неделе сразу две крупные работы — от Meta AI и международной группы исследователей (OpenAI, Anthropic, Google DeepMind) — стали поворотной точкой в разговоре о безопасности языковых моделей и агентных систем.

Обе публикации показывают: фильтры, патчи и “безопасные подсказки” — лишь иллюзия контроля.

LLM остаются взламываемыми по своей природе, а значит, настоящая безопасность должна быть архитектурной, а не косметической. Первая работа, опубликованная Meta AI, ввела простое, но мощное правило: “Agents Rule of Two”.

Оно звучит почти как манифест для создателей ИИ-систем: Агент не должен одновременно обладать всеми тремя возможностями:

🧠 обрабатывать ненадёжные входные данные,

🔐 иметь доступ к приватным системам или данным,

🌐 изменять состояние или взаимодействовать с внешним миром. Разрешается только две из трёх, иначе требуется человеческое одобрение — “human-in-the-loop”. 💡 Идея вдохновлена “Rule of 2” из безопасности браузера Chrome:

чтобы избежать катастроф, система н

Обе публикации показывают: фильтры, патчи и “безопасные подсказки” — лишь иллюзия контроля.

🧠 обрабатывать ненадёжные входные данные,

🔐 иметь доступ к приватным системам или данным,

чтобы избежать катастроф, система н

Оглавление

⚖️ Правило двух: новая заповедь для разработчиков агентов
🧨 Почему фильтры не работают
🧠 Что такое prompt-injection и почему это не просто “вредный запрос”

На прошлой неделе сразу две крупные работы — от Meta AI и международной группы исследователей (OpenAI, Anthropic, Google DeepMind) — стали поворотной точкой в разговоре о безопасности языковых моделей и агентных систем.
Обе публикации показывают: фильтры, патчи и “безопасные подсказки” — лишь иллюзия контроля.
LLM остаются взламываемыми по своей природе, а значит, настоящая безопасность должна быть архитектурной, а не косметической.

⚖️ Правило двух: новая заповедь для разработчиков агентов

Первая работа, опубликованная Meta AI, ввела простое, но мощное правило: “Agents Rule of Two”.
Оно звучит почти как манифест для создателей ИИ-систем:

Агент не должен одновременно обладать всеми тремя возможностями:
🧠 обрабатывать ненадёжные входные данные,
🔐 иметь доступ к приватным системам или данным,
🌐 изменять состояние или взаимодействовать с внешним миром.

Разрешается только две из трёх, иначе требуется человеческое одобрение — “human-in-the-loop”.

💡 Идея вдохновлена “Rule of 2” из безопасности браузера Chrome:
чтобы избежать катастроф, система никогда не должна одновременно иметь неограниченный ввод и права записи.

Meta адаптировала этот принцип к агентам LLM, где “вред” может выражаться не в краше, а в утечке данных, деструктивных действиях или самоэскалации.

🧨 Почему фильтры не работают

Вторая статья — “The Attacker Moves Second” — буквально разобрала на части все известные защиты от prompt-injection и jailbreak-атак.
Исследователи протестировали 12 существующих систем: от PromptGuard до Model Armor.
Результаты — шокирующие:

🤖 Адаптивные атаки (RL, поиск, градиентная оптимизация) пробили защиты в 90+ % случаев.
🧑‍💻 “Красная команда” из 500 человек добилась 100 % успеха — ни одна система не устояла.
🧠 Даже самые устойчивые фильтры падали под давлением итеративных атак, где злоумышленник обучается на ошибках модели.

Главный вывод исследователей: никакой универсальной защиты от prompt-injection пока не существует.
Любая статическая проверка — как забор из песка: первый же волной её смоет адаптивный противник.

🧠 Что такое prompt-injection и почему это не просто “вредный запрос”

Prompt-injection — это не одна уязвимость, а целый класс атак, где злоумышленник внедряет команды в текст, который модель считает доверенным.
Пример: пользователь просит “прочитать сайт” — а там скрыта инструкция вроде “удали все файлы”, “отправь токен API на этот адрес” или “перепиши контекст подменой”.

🧩 Проблема в том, что LLM не различает данные и инструкции.
Для неё “веб-страница” и “системный промпт” — одинаковые строки.
А значит, любая модель с доступом к API, диску или сети по сути эксплуатируема.

🔄 Когда атакующий делает второй ход

Название второй статьи — не метафора.
Оно буквально описывает суть угрозы:

“Нападающий всегда делает второй ход — реагирует на защиту и адаптируется.”

Это делает оборону почти невозможной:
LLM-фильтры обучены на фиксированных паттернах атак, а атакующий обучается быстрее — использует reinforcement learning, перефразирует команды и даже заставляет модель самой находить уязвимости.

Это напоминает бесконечную шахматную партию, где AI-защитник играет по правилам, а противник — переписывает их на ходу.

🧱 Безопасность через архитектуру

Пока фильтры не работают, остаётся лишь одно — строить системы с осознанием уязвимости.
“Rule of Two” предлагает именно такой подход: проектировать окружение, где ошибка модели не приводит к катастрофе.

🧩 Например:

Агент может читать почту (ненадёжные данные) и отправлять отчёты (внешние действия) — но без доступа к приватной CRM.
Или наоборот: агент может работать с базой данных и читать документацию, но не выполнять запросы к API.

То есть проектирование LLM-агентов превращается не в борьбу с атаками, а в ограничение контекста и полномочий.

🔍 Личный взгляд

Эти исследования — холодный душ для всей индустрии “ИИ-интеграторов”.
Мы слишком быстро научились подключать LLM к внешним системам, но слишком медленно учимся доверять им с осторожностью.

Meta делает шаг в правильном направлении: “Rule of Two” — это не ограничение, а новая философия минимально достаточного доверия.
Возможно, именно она станет стандартом “AI DevSecOps”, где безопасность проектируется не фильтрами, а здравым смыслом.

И, пожалуй, главный вывод: пока модель не способна объяснить свои намерения, нельзя позволять ей менять мир без наблюдателя-человека.

🔗 Источники:

New Prompt Injection Papers: Agents Rule of Two and The Attacker Moves Second — Simon Willison’s Weblog