213 подписчиков

⚠️ Когда агент становится двойным агентом: уязвимость в GitHub MCP

27 мая 202527 мая 2025

3 мин

Развитие искусственного интеллекта и интеграция ИИ-агентов в рабочие процессы принесли нам не только значительное повышение производительности, но и новые риски в сфере информационной безопасности. Один из свежих и ярких примеров – критическая уязвимость в GitHub MCP, недавно обнаруженная экспертами компании Invariant Labs. Давайте разберёмся, в чём суть проблемы и как можно защититься от подобных атак. Эксперты компании Invariant выявили новую угрозу безопасности, которую назвали Toxic Agent Flow(«токсичный поток агента»). Используя специально подготовленную задачу (issue) в публичном репозитории, злоумышленники смогли заставить ИИ-агента, такого как Claude Desktop, «невольно» выдать конфиденциальную информацию из частных репозиториев пользователя. Сценарий атаки выглядит примерно так: Таким образом, злоумышленники могут получить доступ к коммерческим тайнам, личным данным и даже конфиденциальным планам компании. Главная причина возникновения данной уязвимости заключается не в плохом

Оглавление

🔍 Что произошло?
🧩 Почему это произошло?
🚧 Как защититься?

🔍 Что произошло?

Эксперты компании Invariant выявили новую угрозу безопасности, которую назвали Toxic Agent Flow(«токсичный поток агента»). Используя специально подготовленную задачу (issue) в публичном репозитории, злоумышленники смогли заставить ИИ-агента, такого как Claude Desktop, «невольно» выдать конфиденциальную информацию из частных репозиториев пользователя.

Сценарий атаки выглядит примерно так:

📝 Злоумышленник публикует на публичном GitHub-репозитории вредоносную задачу с внедрённым кодом-провокатором (prompt injection).
🤖 Пользователь через ИИ-агента запрашивает информацию о проблемах из публичного репозитория.
🕵️ Агент, взаимодействуя с вредоносной задачей, незаметно для пользователя начинает «сливать» данные из приватных репозиториев, публикуя их в виде pull request, доступного всем.

Таким образом, злоумышленники могут получить доступ к коммерческим тайнам, личным данным и даже конфиденциальным планам компании.

🧩 Почему это произошло?

Главная причина возникновения данной уязвимости заключается не в плохом коде самого GitHub MCP, а в архитектурных особенностях интеграции ИИ-агентов с внешними платформами. Агент полностью доверяет информации, получаемой из внешних источников, и поэтому легко поддаётся манипуляциям.

Более того, существующие модели безопасности, направленные на выравнивание поведения (model alignment), оказались неэффективны против такого типа атак. Даже продвинутые и безопасные ИИ-модели, такие как Claude 4 Opus, оказались бессильны перед грамотно составленной задачей.

🚧 Как защититься?

Компания Invariant предложила несколько эффективных стратегий защиты от токсичных потоков агентов:

🔐 Гранулярный контроль разрешений. Используйте подход наименьших привилегий и ограничивайте доступ агента только к необходимым репозиториям. Например, система Guardrails от Invariant позволяет задать динамические политики безопасности, предотвращающие утечку данных между репозиториями.Пример политики:
raise Violation("You can access only one repo per session.") if:
(call_before: ToolCall) -> (call_after: ToolCall)

call_before.function.name in (...набор действий с репозиториями)
call_after.function.name in (...набор действий с репозиториями)

call_before.function.arguments["repo"] != call_after.function.arguments["repo"] or
call_before.function.arguments["owner"] != call_after.function.arguments["owner"]
🔍 Непрерывный мониторинг безопасности. Реализуйте механизмы непрерывного аудита взаимодействий ИИ-агентов с внешними системами. Например, решение MCP-scan от Invariant обеспечивает проверку всех запросов агентов в реальном времени.

🌍 Взгляд автора

На мой взгляд, уязвимость GitHub MCP — это важное напоминание о том, что искусственный интеллект, несмотря на все свои преимущества, остаётся инструментом с непредсказуемыми рисками. Подобные атаки показывают необходимость комплексного подхода к безопасности, где защита реализуется не только на уровне ИИ-моделей, но и на уровне общей архитектуры системы.

Кроме того, стоит учитывать психологический фактор: многие пользователи предпочитают включать автоматическое подтверждение действий своих агентов, упрощая себе жизнь, но одновременно существенно увеличивая риск атаки. Важно помнить, что автоматизация не должна приводить к слепому доверию агентам — безопасность всегда должна оставаться осознанным приоритетом.

Надеюсь, что разработчики ИИ-систем учтут этот урок и будут более тщательно подходить к созданию своих решений. Вопросы безопасности должны стать не просто «полезным дополнением», а обязательным элементом разработки любой ИИ-системы.

🔗 Источник новости: Invariant Labs - GitHub MCP Exploited
🔗 Дополнительный материал:

Invariant Guardrails Playground