39 подписчиков

OpenClaw: ИИ-агент который обходит защиту

21 марта21 мар

3 мин

Представь картину. Тебе пересылают письмо «посмотри, пожалуйста». Внутри — обычный текст. ИИ-агент честно делает свою работу: читает, резюмирует… и между делом выполняет спрятанную инструкцию. Например, отправляет учётные данные на внешний сервер. Не вирусом, не взломом, а вполне легальным запросом через разрешённый канал — да ещё и своим токеном доступа. Защита видит обычный запрос. Антивирус видит нормальный процесс. Фильтр данных молчит. Все довольны, кроме тебя. И вот в чём неприятность: за две недели шесть разных команд выпустили шесть «защит» для OpenClaw — популярного открытого ИИ-агента. А три дырки как жили, так и живут. Исследователи безопасности нашли, что у 22% корпоративных клиентов сотрудники запускают ИИ-агентов без согласования с IT. За две недели количество публично доступных установок выросло с тысячи до тридцати тысяч. А аудит магазина навыков показал: 36% плагинов содержат проблемы с безопасностью. Агентный ИИ массово попадает в компании так же, как когда-то «левые»

Оглавление

Масштаб уже не теоретический
Почему стандартная защита не видит угрозу
Что успели починить — и что нет

Защита видит обычный запрос. Антивирус видит нормальный процесс. Фильтр данных молчит. Все довольны, кроме тебя.

И вот в чём неприятность: за две недели шесть разных команд выпустили шесть «защит» для OpenClaw — популярного открытого ИИ-агента. А три дырки как жили, так и живут.

Масштаб уже не теоретический

Исследователи безопасности нашли, что у 22% корпоративных клиентов сотрудники запускают ИИ-агентов без согласования с IT. За две недели количество публично доступных установок выросло с тысячи до тридцати тысяч. А аудит магазина навыков показал: 36% плагинов содержат проблемы с безопасностью.

Агентный ИИ массово попадает в компании так же, как когда-то «левые» мессенджеры: «да я просто попробовал». Только теперь «просто попробовал» умеет ходить в почту, файлы и внешние сервисы.

Почему стандартная защита не видит угрозу

Обычные системы безопасности любят понятные вещи: подозрительный файл, странный процесс, неизвестный домен. А тут атака упакована в смысл.

Злоумышленник прячет команды в обычный текст — так, чтобы агент принял их за часть задания. Это называют «внедрением инструкций» — звучит страшно, но идея простая: агент делает всё «правильно», просто правильно для атакующего. Защита видит: пользователь с правами что-то запросил через API. И это правда. Просто решение что именно запросить было подменено.

Вторая проблема — когда в работе участвует несколько агентов, они часто делят общий контекст: заметки, память, рабочие файлы. Исследователи показывали сценарий: агент тихо добавляет вредные инструкции в свои рабочие файлы и «ждёт» команды с внешнего сервера. Такая мина может лежать неделями и сработать во время совершенно другой задачи.

Третья — агенты умеют делегировать задачи друг другу. А нормальной взаимной проверки «кто ты такой» между ними может не быть. Компрометируешь одного — и он начинает раздавать команды дальше уже «на правах доверенного». Не потому что система дырявая по коду, а потому что модель доверия наивная: если ты в цепочке, значит свой.

Что успели починить — и что нет

Защиты пошли по разным направлениям. Одни мониторят изменения важных файлов и ужесточают контроль исходящего трафика. Другие переписали архитектуру: запускают сторонние инструменты в изолированной среде, где у кода нет прав по умолчанию — он должен явно попросить доступ к сети или файлам. Третьи делают упор на аудит и сканирование навыков до установки.

Но общий итог звучит жёстко: понимания зачем именно агент сделал то или иное действие — нет почти ни у кого. А именно там живёт главная дыра.

Один из исследователей безопасности продвигает идею которая выглядит как очевидная: каждый навык должен заранее объявлять что он умеет делать — как мобильное приложение просит доступ к камере и контактам. Хочешь навык который ходит в интернет и читает файлы? Пожалуйста — но это должно быть явно видно до запуска. Наконец-то навыки начинают воспринимать как программы, а не как текстик из сообщества.

Что с этим делать

Первое что стоит принять как факт: если в компании больше десяти человек, ИИ-агент где-то уже запущен без ведома IT. 22% — это нижняя граница, не потолок.

Дальше — изоляция. Агент не должен жить на рабочем ноутбуке с доступом ко всей инфраструктуре просто потому что «так удобнее». Ограниченные права, белые списки инструментов, отдельная среда — скучно, зато утром не придётся разбираться что именно утекло и куда.

И главное: для чувствительных действий нужен человек в цепочке. Любая операция которая трогает настройки, учётные данные или отправляет данные наружу — должна останавливаться и спрашивать «точно?».

Потому что главная проблема не в том, что агент вредоносный. А в том, что он может быть слишком послушным — как стажёр который никогда не спорит и всегда делает как сказали, даже если сказали шёпотом в пересланном письме.

И твоя защита на это посмотрит, пожмёт плечами и скажет: «Ну да, человек работал». Только человеком в этот момент был не человек.