DeepMind опубликовали материал “Securing the future of AI agents” про безопасность автономных агентов внутри реальной инфраструктуры. Главная мысль простая: чем умнее становятся агенты, тем меньше достаточно обычного alignment. Нужен отдельный системный слой защиты, который работает даже в сценарии, где агент ошибается, неправильно понимает задачу или ведёт себя не так, как ожидали. Для этого Google DeepMind развивают AI Control Roadmap. Что важно: - Агентов предлагают рассматривать как потенциальный insider threat То есть не как обычный чат-бот, а как систему с доступами, инструментами и возможностью влиять на инфраструктуру. - Defense-in-depth вместо одной защиты В основе остаются sandboxing, endpoint security и защита от prompt injection, но сверху добавляется контроль поведения агента. - AI-супервизоры следят за AI-агентами Доверенные модели анализируют reasoning, действия и планы рабочего агента. Если поведение выглядит опасным, действие можно заблокировать до ущерба. -