На прошлой неделе сразу две крупные работы — от Meta AI и международной группы исследователей (OpenAI, Anthropic, Google DeepMind) — стали поворотной точкой в разговоре о безопасности языковых моделей и агентных систем.
Обе публикации показывают: фильтры, патчи и “безопасные подсказки” — лишь иллюзия контроля.
LLM остаются взламываемыми по своей природе, а значит, настоящая безопасность должна быть архитектурной, а не косметической. Первая работа, опубликованная Meta AI, ввела простое, но мощное правило: “Agents Rule of Two”.
Оно звучит почти как манифест для создателей ИИ-систем: Агент не должен одновременно обладать всеми тремя возможностями:
🧠 обрабатывать ненадёжные входные данные,
🔐 иметь доступ к приватным системам или данным,
🌐 изменять состояние или взаимодействовать с внешним миром. Разрешается только две из трёх, иначе требуется человеческое одобрение — “human-in-the-loop”. 💡 Идея вдохновлена “Rule of 2” из безопасности браузера Chrome:
чтобы избежать катастроф, система н