Добавить в корзинуПозвонить
Найти в Дзене
CISOCLUB

Когда агенты ИИ выходят из-под контроля

Изображение: recraft Компания Intuit представила исследование, в котором рассмотрены неожиданные способы, с помощью которых агенты искусственного интеллекта выходят за пределы заданных рамок. В центре внимания — новый класс систем, способных самостоятельно выполнять действия, вызывать внешние инструменты и планировать цепочки задач без прямого подтверждения каждого шага со стороны пользователя. Такой переход требует от специалистов по безопасности нового взгляда на контроль и оценку поведения ИИ в динамической среде. Разработка Intuit получила название ASTRA — тестовая платформа, предназначенная для изучения управляемости и устойчивости агентов в прикладных сценариях. В рамках тестирования команда смоделировала 10 ситуаций, отражающих реальные бизнес-процессы: от генерации кода и анализа данных до работы с периферийными устройствами и логистикой. Для каждого сценария были заданы инструменты и ограничения, имитирующие рабочие условия. Задача агента — следовать правилам, несмотря на попы

Изображение: recraft

Компания Intuit представила исследование, в котором рассмотрены неожиданные способы, с помощью которых агенты искусственного интеллекта выходят за пределы заданных рамок. В центре внимания — новый класс систем, способных самостоятельно выполнять действия, вызывать внешние инструменты и планировать цепочки задач без прямого подтверждения каждого шага со стороны пользователя. Такой переход требует от специалистов по безопасности нового взгляда на контроль и оценку поведения ИИ в динамической среде.

Разработка Intuit получила название ASTRA — тестовая платформа, предназначенная для изучения управляемости и устойчивости агентов в прикладных сценариях.

В рамках тестирования команда смоделировала 10 ситуаций, отражающих реальные бизнес-процессы: от генерации кода и анализа данных до работы с периферийными устройствами и логистикой. Для каждого сценария были заданы инструменты и ограничения, имитирующие рабочие условия. Задача агента — следовать правилам, несмотря на попытки пользователя вывести его из рамок допустимого поведения.

В ходе экспериментов протестировано 13 моделей с открытым исходным кодом. Основное внимание уделялось тому, как агент справляется с многошаговыми взаимодействиями, в которых каждый этап может содержать потенциальные векторы атаки. Риски исходили как от пользователей, способных давать завуалированные команды, так и от инструментов, выдающих подстроенные ответы. Кроме того, длительная сессия общения может ослабить устойчивость агента и повлиять на соблюдение инструкций.

Тесты охватывали несколько категорий нарушений: активацию неподходящих инструментов, изменение параметров, обход системных ограничений и утечку конфигурационных данных. Эти группы позволили команде классифицировать уязвимости и предложить структуру для анализа систем безопасности при разработке собственных агентов в компаниях.

Исследование дало два важных вывода, изменяющих привычные представления о защищённости ИИ. Во-первых, размер модели не оказался показателем надёжности. Некоторые малые модели продемонстрировали высокий уровень устойчивости и получили оценки управляемости до 0,89, в то время как крупные модели часто нарушали ограничения. В нескольких случаях более компактные решения получили оценки ниже 0,40, что указывает на значительную вариативность в поведении.

Во-вторых, стандартные тесты на устойчивость к джейлбрейку не коррелируют с результатами в многошаговых сценариях. Некоторые модели успешно отклоняли вредоносные команды в классических тестах, но при этом нарушали правила при работе в качестве агента. Это подчёркивает необходимость оценивать не только способность фильтровать вредоносный текст, но и поведение при принятии решений и выборе инструментов.

Оригинал публикации на сайте CISOCLUB: "Intuit: агенты ИИ нарушают ограничения даже при высокой устойчивости к вредоносным подсказкам".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.