11,6 тыс подписчиков

Когда агенты ИИ выходят из-под контроля

9 декабря 20259 дек 2025

2 мин

Изображение: recraft Компания Intuit представила исследование, в котором рассмотрены неожиданные способы, с помощью которых агенты искусственного интеллекта выходят за пределы заданных рамок. В центре внимания — новый класс систем, способных самостоятельно выполнять действия, вызывать внешние инструменты и планировать цепочки задач без прямого подтверждения каждого шага со стороны пользователя. Такой переход требует от специалистов по безопасности нового взгляда на контроль и оценку поведения ИИ в динамической среде. Разработка Intuit получила название ASTRA — тестовая платформа, предназначенная для изучения управляемости и устойчивости агентов в прикладных сценариях. В рамках тестирования команда смоделировала 10 ситуаций, отражающих реальные бизнес-процессы: от генерации кода и анализа данных до работы с периферийными устройствами и логистикой. Для каждого сценария были заданы инструменты и ограничения, имитирующие рабочие условия. Задача агента — следовать правилам, несмотря на попы

Изображение: recraft

Компания Intuit представила исследование, в котором рассмотрены неожиданные способы, с помощью которых агенты искусственного интеллекта выходят за пределы заданных рамок. В центре внимания — новый класс систем, способных самостоятельно выполнять действия, вызывать внешние инструменты и планировать цепочки задач без прямого подтверждения каждого шага со стороны пользователя. Такой переход требует от специалистов по безопасности нового взгляда на контроль и оценку поведения ИИ в динамической среде.

Разработка Intuit получила название ASTRA — тестовая платформа, предназначенная для изучения управляемости и устойчивости агентов в прикладных сценариях.

В рамках тестирования команда смоделировала 10 ситуаций, отражающих реальные бизнес-процессы: от генерации кода и анализа данных до работы с периферийными устройствами и логистикой. Для каждого сценария были заданы инструменты и ограничения, имитирующие рабочие условия. Задача агента — следовать правилам, несмотря на попытки пользователя вывести его из рамок допустимого поведения.

В ходе экспериментов протестировано 13 моделей с открытым исходным кодом. Основное внимание уделялось тому, как агент справляется с многошаговыми взаимодействиями, в которых каждый этап может содержать потенциальные векторы атаки. Риски исходили как от пользователей, способных давать завуалированные команды, так и от инструментов, выдающих подстроенные ответы. Кроме того, длительная сессия общения может ослабить устойчивость агента и повлиять на соблюдение инструкций.

Тесты охватывали несколько категорий нарушений: активацию неподходящих инструментов, изменение параметров, обход системных ограничений и утечку конфигурационных данных. Эти группы позволили команде классифицировать уязвимости и предложить структуру для анализа систем безопасности при разработке собственных агентов в компаниях.

Исследование дало два важных вывода, изменяющих привычные представления о защищённости ИИ. Во-первых, размер модели не оказался показателем надёжности. Некоторые малые модели продемонстрировали высокий уровень устойчивости и получили оценки управляемости до 0,89, в то время как крупные модели часто нарушали ограничения. В нескольких случаях более компактные решения получили оценки ниже 0,40, что указывает на значительную вариативность в поведении.

Во-вторых, стандартные тесты на устойчивость к джейлбрейку не коррелируют с результатами в многошаговых сценариях. Некоторые модели успешно отклоняли вредоносные команды в классических тестах, но при этом нарушали правила при работе в качестве агента. Это подчёркивает необходимость оценивать не только способность фильтровать вредоносный текст, но и поведение при принятии решений и выборе инструментов.

Оригинал публикации на сайте CISOCLUB: "Intuit: агенты ИИ нарушают ограничения даже при высокой устойчивости к вредоносным подсказкам".

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.

Гаджеты и электроника

5,73 млн интересуются