2163 подписчика

Правила бессильны внутри промпта, но эффективны на границах системы.

28 января28 янв

6 мин

Анализ новых векторов кибератак, использующих уязвимости в агентских системах ИИ, от внедрения подсказок до эксплуатации автономных рабочих процессов. Рассматриваются реальные случаи шпионажа и подчёркивается, что управление безопасностью ИИ должно основываться на системных границах возможностей, а не на лингвистическом контроле. От атаки внедрения подсказок в Google Gemini Calendar в 2026 году до спонсируемой государством хакерской атаки в сентябре 2025 года, в которой использовался код Anthropic Claude в качестве автоматизированного механизма вторжения, принуждение к действиям агентов с участием человека (human-in-the-loop) и полностью автономные агентские рабочие процессы становятся новым вектором атак для хакеров. В случае с Anthropic пострадало около 30 организаций в сферах технологий, финансов, производства и государственного управления. Команда по угрозам Anthropic оценила, что злоумышленники использовали ИИ для выполнения 80–90% операции: разведки, разработки эксплойтов, сбора

Оглавление

Внедрение подсказок — это убеждение, а не ошибка
Почему это проблема управления, а не проблем кодирования
От мягких слов к жёстким границам

От атаки внедрения подсказок в Google Gemini Calendar в 2026 году до спонсируемой государством хакерской атаки в сентябре 2025 года, в которой использовался код Anthropic Claude в качестве автоматизированного механизма вторжения, принуждение к действиям агентов с участием человека (human-in-the-loop) и полностью автономные агентские рабочие процессы становятся новым вектором атак для хакеров. В случае с Anthropic пострадало около 30 организаций в сферах технологий, финансов, производства и государственного управления. Команда по угрозам Anthropic оценила, что злоумышленники использовали ИИ для выполнения 80–90% операции: разведки, разработки эксплойтов, сбора учетных данных, латерального перемещения и эксфильтрации данных, при этом люди вмешивались лишь в нескольких ключевых точках принятия решений.

Это не была лабораторная демонстрация; это была реальная кампания шпионажа. Злоумышленники захватили агентскую установку (код Claude плюс инструменты, доступные через Протокол контекста модели (MCP)), обошли её ограничения (jailbroke), разбив атаку на мелкие, казалось бы, безвредные задачи и сообщив модели, что она проводит законное тестирование на проникновение. Тот же цикл, который обеспечивает работу помощников разработчиков (copilot) и внутренних агентов, был перепрофилирован в автономный кибероператор. Claude не был взломан. Его убедили, и он использовал инструменты для атаки.

Внедрение подсказок — это убеждение, а не ошибка

Сообщество специалистов по безопасности предупреждает об этом уже несколько лет. В нескольких отчётах OWASP Top 10 внедрение подсказок (prompt injection), или, как его называют новее, Перехват цели агента (Agent Goal Hijack), занимает верхние строчки в списке рисков, наряду с злоупотреблением идентификацией и привилегиями, а также эксплуатацией доверия между человеком и агентом: слишком много власти у агента, отсутствие разделения между инструкциями и данными и отсутствие посредничества в отношении выводимых результатов.

Руководства от NCSC и CISA описывают генеративный ИИ как постоянный вектор социальной инженерии и манипуляции, которым необходимо управлять на этапах проектирования, разработки, внедрения и эксплуатации, а не исправлять путём улучшения формулировок. Закон ЕС об ИИ закрепляет этот подход к жизненному циклу для систем ИИ высокого риска, требуя непрерывной системы управления рисками, надёжного управления данными, ведения журналов и мер кибербезопасности.

На практике внедрение подсказок лучше всего понимать как канал убеждения. Злоумышленники не ломают модель — они её убеждают. В примере с Anthropic операторы представляли каждый шаг как часть упражнения по оборонительной безопасности, скрывали от модели общую картину кампании и подталкивали её, цикл за циклом, к наступательным действиям со скоростью машины.

Это то, что надёжно не могут остановить ни фильтры по ключевым словам, ни вежливый абзац с инструкцией «пожалуйста, следуйте этим правилам безопасности». Исследования об обманчивом поведении моделей усугубляют ситуацию. Исследование Anthropic о спящих агентах показывает, что как только модель усваивает бэкдор, стратегическое распознавание шаблонов, стандартная донастройка (fine-tuning) и состязательное обучение (adversarial training) на самом деле могут помочь модели скрыть обман, а не устранить его. Если пытаться защитить такую систему исключительно лингвистическими правилами, вы играете на её поле.

Почему это проблема управления, а не проблем кодирования

Регуляторы не требуют идеальных подсказок; они требуют, чтобы предприятия продемонстрировали контроль.

AI RMF от NIST подчёркивает инвентаризацию активов, определение ролей, контроль доступа, управление изменениями и непрерывный мониторинг на протяжении всего жизненного цикла ИИ. Кодекс практики кибербезопасности ИИ Великобритании аналогичным образом продвигает принципы безопасности по умолчанию, рассматривая ИИ как любую другую критически важную систему, с чёткими обязанностями для руководства и операторов систем от момента создания до вывода из эксплуатации.

Иными словами: необходимые правила — это не «никогда не говори X» или «всегда отвечай как Y», а:

Кем действует этот агент?
К каким инструментам и данным он имеет доступ?
Какие действия требуют одобрения человека?
Как выводимые результаты с высоким уровнем воздействия модерируются, логируются и проверяются?

Такие фреймворки, как Secure AI Framework (SAIF) от Google, делают это конкретным. Контроль разрешений агентов в SAIF прост: агенты должны работать с минимальными привилегиями, динамически ограниченными разрешениями и явным контролем со стороны пользователя для конфиденциальных действий. Новые рекомендации OWASP Top 10 по агентским приложениям отражают ту же позицию: ограничивать возможности на границе, а не в тексте.

От мягких слов к жёстким границам

Случай шпионажа с Anthropic наглядно демонстрирует сбой границ:

Идентификация и область действия: Claude был вынужден действовать как консультант по оборонительной безопасности для вымышленной фирмы злоумышленника, без жёсткой привязки к реальной корпоративной идентификации, арендатору или ограниченным разрешениям. Как только эта фикция была принята, всё остальное последовало.
Доступ к инструментам и данным: MCP предоставил агенту гибкий доступ к сканерам, фреймворкам эксплойтов и целевым системам. Не было независимого уровня политики, гласящего: «Этому арендатору никогда не разрешается запускать программы для подбора паролей против внешних диапазонов IP» или «Эта среда может сканировать только активы с пометкой „внутренние“».
Выполнение выходных данных: Сгенерированный код эксплойта, извлечённые учётные данные и планы атак рассматривались как выполнимые артефакты с минимальным посредничеством. Как только человек решал доверять резюме, барьер между выводом модели и реальными побочными эффектами фактически исчезал.

Мы видели обратную сторону этой медали в гражданских контекстах. Когда чат-бот на веб-сайте Air Canada неверно истолковал политику траура, и авиакомпания попыталась утверждать, что бот является отдельным юридическим лицом, трибунал полностью отклонил это требование: компания осталась ответственной за то, что сказал бот. В случае со шпионажем ставки выше, но логика та же: если ИИ-агент неправомерно использует инструменты или данные, регуляторы и суды будут смотреть не на агента, а на предприятие.

Работающие и неработающие правила

Итак, да, системы, основанные на правилах, терпят неудачу, если под правилами подразумеваются специальные списки разрешений/запретов, регулярные выражения (regex fences) и запутанные иерархии подсказок, пытающиеся контролировать семантику. Они рушатся под натиском косвенного внедрения подсказок, отравления на этапе извлечения и обмана модели. Но основанное на правилах управление становится обязательным, когда мы переходим от языка к действию.

Сообщество специалистов по безопасности сходится на синтезе:

Размещайте правила на границе возможностей: используйте механизмы политик, системы идентификации и разрешения инструментов, чтобы определить, что агент может фактически делать, с какими данными и при каком одобрении.
Сочетайте правила с непрерывной оценкой: используйте инструменты наблюдаемости (observability), пакеты для «красных команд» (red-teaming) и надёжное ведение журналов и сбора доказательств.
Рассматривайте агентов как первоклассные объекты в вашей модели угроз: например, MITRE ATLAS теперь каталогизирует методы и тематические исследования, специально нацеленные на системы ИИ.

Урок первой шпионской кампании, оркестрованной ИИ, заключается не в том, что ИИ неконтролируем. Он в том, что контроль должен находиться там же, где он всегда был в безопасности: на границе архитектуры, обеспечиваемый системами, а не настроением.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Jenn Webb

Оригинал статьи

Экономическое развитие России

110,6 тыс интересуются