Один фальшивый отчет об ошибке, отправленный в систему мониторинга — и ваша корпоративная инфраструктура превращается в решето. Claude Code, любимец разработчиков, недавно продемонстрировал, как глубоко мы заблуждаемся, полагаясь на «умных» помощников. В ходе тестов Tenet Security этот ИИ-агент послушно исполнял вредоносный код, имея полные права администратора, и при этом ни одна система защиты даже не пикнула. Ни EDR, ни WAF, ни привычный файервол не заметили подвоха, потому что для них всё выглядело как обычная рутина разработчика.
Доверие как главная уязвимость
Проблема кроется в самой архитектуре современных ИИ технологий. Мы даем агентам доступ к инструментам вроде Sentry, Datadog, PagerDuty или Jira, предполагая, что раз это проверенные сервисы, то и данные оттуда — кристально чистые. Но это опасная иллюзия. Атака, детально описанная в недавнем отчете, эксплуатирует именно это слепое доверие. Злоумышленник формирует сообщение об ошибке, которое выглядит как легитимный диагностический лог, но внутри него спрятана инструкция.
Когда машинное обучение внутри агента интерпретирует этот лог, оно воспринимает «инъекцию» не как угрозу, а как руководство к действию. Агент, обладающий привилегиями разработчика, без лишних вопросов исполняет вредоносный скрипт. Результат? Полный захват системы. Никаких взломов паролей, никаких эксплойтов нулевого дня. Просто манипуляция данными, которым ИИ привык доверять безоговорочно. Это не баг в коде — это фундаментальная дыра в безопасности, которую Cloud Security Alliance уже классифицировал как новый класс уязвимостей под названием «агентджекинг».
Почему защита «смотрит в другую сторону»
Вы поставили мощный межсетевой экран? Молодцы. У вас настроен строгий IAM? Прекрасно. Только вот для этих систем атакующий не существует. Весь трафик идет через доверенные API, все действия совершаются под учетной записью, которая имеет легитимный доступ к репозиториям и серверам. Нейросети, действующие как автономные агенты, по сути, обходят традиционный периметр безопасности, потому что они сами — часть этого периметра.
Тенет протестировал более 100 целей, и результат шокирует — 85% успеха. Это не случайность, это системная проблема. Когда система защиты видит, как ИИ-агент пушит код, она считает это нормальным поведением. Она не понимает контекста: кто инициировал этот коммит? Было ли это осознанное решение инженера или реакция на «отравленный» лог из Sentry? Пока мы не научим наши системы анализировать контекст действий агента в рантайме, мы будем оставаться беззащитными перед такими атаками.
Готовы ли вы к «агентджекингу»?
Разработчики Sentry назвали этот класс угроз «технически неоправданным», намекая, что ответственность лежит на внедряющих ИИ компаниях. И в чем-то они правы. Мы слишком быстро интегрировали искусственный интеллект в рабочие процессы, забыв про «песочницы» и жесткую фильтрацию входных данных. Теперь каждый инструмент, с которым работает ваш агент, становится потенциальным вектором атаки.
Что делать сейчас? Во-первых, пересмотреть права доступа. Агент не должен иметь «золотой ключ» от всего репозитория. Во-вторых, внедрять проверку входящих данных из внешних систем, даже если это «надежный» Jira или Datadog. Если агент получает данные, которые могут содержать команды (а логи — это почти всегда команды), эти данные должны проходить строгую санитарную обработку. Мы перешли в эру, где код пишет себя сам, но именно поэтому мы должны контролировать каждое слово, которое он читает.
В этой гонке вооружений между безопасностью и автоматизацией победит тот, кто первым осознает: агент — это не просто инструмент, это новый тип пользователя с уникальными рисками. Если вы хотите быть в курсе того, как меняется ландшафт угроз и какие приемы защиты действительно работают, подписывайтесь на NeuroPlex в Telegram. Там мы без лишней воды разбираем, как не дать нейросетям случайно сжечь ваш бизнес.