Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

⚡️ Google DeepMind показали, как собираются защищать AI-агентов

DeepMind опубликовали материал “Securing the future of AI agents” про безопасность автономных агентов внутри реальной инфраструктуры. Главная мысль простая: чем умнее становятся агенты, тем меньше достаточно обычного alignment. Нужен отдельный системный слой защиты, который работает даже в сценарии, где агент ошибается, неправильно понимает задачу или ведёт себя не так, как ожидали. Для этого Google DeepMind развивают AI Control Roadmap. Что важно: - Агентов предлагают рассматривать как потенциальный insider threat То есть не как обычный чат-бот, а как систему с доступами, инструментами и возможностью влиять на инфраструктуру. - Defense-in-depth вместо одной защиты В основе остаются sandboxing, endpoint security и защита от prompt injection, но сверху добавляется контроль поведения агента. - AI-супервизоры следят за AI-агентами Доверенные модели анализируют reasoning, действия и планы рабочего агента. Если поведение выглядит опасным, действие можно заблокировать до ущерба. -

⚡️ Google DeepMind показали, как собираются защищать AI-агентов

DeepMind опубликовали материал “Securing the future of AI agents” про безопасность автономных агентов внутри реальной инфраструктуры.

Главная мысль простая: чем умнее становятся агенты, тем меньше достаточно обычного alignment. Нужен отдельный системный слой защиты, который работает даже в сценарии, где агент ошибается, неправильно понимает задачу или ведёт себя не так, как ожидали.

Для этого Google DeepMind развивают AI Control Roadmap.

Что важно:

- Агентов предлагают рассматривать как потенциальный insider threat

То есть не как обычный чат-бот, а как систему с доступами, инструментами и возможностью влиять на инфраструктуру.

- Defense-in-depth вместо одной защиты

В основе остаются sandboxing, endpoint security и защита от prompt injection, но сверху добавляется контроль поведения агента.

- AI-супервизоры следят за AI-агентами

Доверенные модели анализируют reasoning, действия и планы рабочего агента. Если поведение выглядит опасным, действие можно заблокировать до ущерба.

- Права выдаются постепенно

Агент получает доступы не «всё сразу», а по мере доказанного безопасного поведения. DeepMind сравнивает это с инструктором по вождению, который доверяет ученику, но держит руку на тормозе.

- Они уже анализировали миллион задач coding-агентов

Это помогло уйти от примитивных keyword-фильтров к поиску реальных поведенческих паттернов. Например, такие мониторы уже помогают отслеживать риски вроде случайного удаления данных.

Самый интересный момент: DeepMind прямо признаёт, что проблема часто не в злонамеренности агента, а в его чрезмерном усердии или неправильной интерпретации цели пользователя.

И это очень важный сдвиг. Безопасность AI-агентов теперь всё больше похожа не на модерацию текста, а на полноценную кибербезопасность: threat modeling, мониторинг, права доступа, live response и защита на уровне всей системы.

https://deepmind.google/blog/securing-the-future-of-ai-agents/