Найти в Дзене
NeuroTechnus

EnterpriseOps-Gym: бенчмарк для оценки ИИ-агентов от ServiceNow

Эпоха больших языковых моделей (LLM), о которых мы писали в статье «OpenJarvis: фреймворк Stanford для локальных ИИ-агентов» [1], стремительно переходит от простых диалоговых систем к новой парадигме автономным агентам ИИ. Автономные агенты - это системы искусственного интеллекта, способные самостоятельно планировать, выполнять и адаптировать свои действия для достижения сложных целей в динамичной среде, минимизируя вмешательство человека. Они используют большие языковые модели для понимания задач и взаимодействия с инструментами. Однако их широкое внедрение в корпоративную среду сдерживается фундаментальной проблемой: отсутствием стандартов, отвечающих на вопрос, как оценить ИИ-агентов с учетом специфики реальных бизнес-процессов- долгосрочное планирование,
постоянные изменения состояния и строгие протоколы доступа. Чтобы закрыть этот пробел, ServiceNow Research в сотрудничестве с Mila и Universite de Montreal представила EnterpriseOps-Gym. Этот новый бенчмарк - высокоточная «песочн
Оглавление

Эпоха больших языковых моделей (LLM), о которых мы писали в статье «OpenJarvis: фреймворк Stanford для локальных ИИ-агентов» [1], стремительно переходит от простых диалоговых систем к новой парадигме автономным агентам ИИ. Автономные агенты - это системы искусственного интеллекта, способные самостоятельно планировать, выполнять и адаптировать свои действия для достижения сложных целей в динамичной среде, минимизируя вмешательство человека. Они используют большие языковые модели для понимания задач и взаимодействия с инструментами. Однако их широкое внедрение в корпоративную среду сдерживается фундаментальной проблемой: отсутствием стандартов, отвечающих на вопрос, как оценить ИИ-агентов с учетом специфики реальных бизнес-процессов- долгосрочное планирование,
постоянные изменения состояния и строгие протоколы доступа. Чтобы закрыть этот пробел, ServiceNow Research в сотрудничестве с Mila и Universite de Montreal представила EnterpriseOps-Gym. Этот новый бенчмарк - высокоточная «песочница», созданная для объективной оценки того, насколько современный ИИ-агент, подобный описанному в материале "OpenJarvis: фреймворк Stanford для локальных ИИ-агентов"
[2], готов к работе в реалистичных корпоративных сценариях.

EnterpriseOps-Gym: Цифровой двойник корпоративной среды

В основе EnterpriseOps-Gym лежит идея создания высокоточного и
функционального цифрового двойника современной корпоративной экосистемы.
Чтобы воплотить эту концепцию в жизнь, разработчики использовали
контейнерную среду Docker
— это технология, которая позволяет упаковывать приложения и все их
зависимости (библиотеки, настройки) в изолированные «контейнеры». Такой
подход обеспечивает единообразную работу приложения в любой среде, от
разработки до продакшена, и именно он позволил с высокой степенью
реализма воссоздать сложную и взаимосвязанную IT-инфраструктуру, с
которой агентам предстоит взаимодействовать в рамках тестирования.

Симуляция охватывает восемь критически важных корпоративных доменов,
которые для ясности разделены на три группы. В первую, операционную
группу, входят системы, отвечающие за ключевые бизнес-процессы:
управление обслуживанием клиентов (CSM), кадрами (HR) и IT-услугами
(ITSM). Вторая группа включает домены для совместной работы, знакомые
каждому офисному сотруднику: электронную почту, календарь, корпоративный
мессенджер Teams и облачное хранилище Drive. Наконец, гибридный домен
предназначен для выполнения наиболее сложных сквозных задач. Масштаб
этой виртуальной среды впечатляет: бенчмарк EnterpriseOps-Gym имитирует
восемь критически важных корпоративных доменов, включая 164 таблицы
реляционных баз данных и 512 функциональных инструментов, что создает
для ИИ-агентов по-настоящему
комплексное и реалистичное поле для испытаний.

Однако истинная сложность бенчмарка определяется не только
количеством элементов, но и глубиной их взаимосвязей. Среда
характеризуется высокой реляционной плотностью, где средняя степень
внешнего ключа составляет 1.7. Это означает, что таблицы в базах данных
тесно переплетены, и для выполнения даже простых операций агенту
необходимо понимать и учитывать сложные межтабличные зависимости.
Ключевым требованием становится
поддержание ссылочной целостности
— это свойство реляционных баз данных, которое гарантирует, что все
ссылки между таблицами остаются действительными. Для агента это вызов,
требующий аккуратности и понимания структуры данных, ведь нарушение
этого принципа приводит к повреждению данных, что в реальной
корпоративной среде недопустимо.

Завершает картину реалистичности тщательно подобранный набор из 1150
уникальных заданий, разработанных экспертами в предметных областях. Это
не тривиальные одношаговые команды, а полноценные
многоэтапные рабочие процессы,
требующие стратегического планирования. Средняя длина траектории для
успешного решения задачи составляет 9 шагов, а самые сложные сценарии
могут достигать 34 шагов. Такой дизайн заставляет агентов
демонстрировать не только способность вызывать нужные инструменты, но и
умение выстраивать долгосрочные планы действий в динамичной и строго
регламентированной среде.

Суровая реальность: Результаты тестирования и разрыв в возможностях

Когда теоретические возможности сталкиваются с практической
реализацией, наступает момент истины. Для оценки реальной готовности
современных ИИ-агентов к корпоративным задачам исследователи провели
масштабное тестирование 14 передовых моделей в среде EnterpriseOps-Gym. В
качестве критерия успеха была выбрана предельно
строгая метрика pass@1.
Ее суть заключается в том, что задача считается выполненной только при
условии прохождения абсолютно всех SQL-верификаторов, проверяющих
конечное состояние системы. Такой бескомпромиссный подход исключает
«частично правильные» решения и измеряет именно ту сквозную надежность,
которая является обязательным требованием для автоматизации
бизнес-процессов.

Полученные результаты можно охарактеризовать как суровую реальность,
демонстрирующую глубокий разрыв между нынешними технологиями и
корпоративными ожиданиями. Ключевой вывод исследования однозначен:
современные передовые модели ИИ-агентов демонстрируют
низкую надежность,
не позволяющую использовать их в полностью автономном режиме. Даже
лидер тестирования, модель Claude Opus 4.5, смогла достичь показателя
успеха лишь в 37.4%. Это означает, что в почти двух третях случаев даже
лучшая на сегодня система не справляется с поставленной задачей в
соответствии со строгими корпоративными стандартами. Потолок надежности
ниже 40% является четким сигналом о том, что технология еще не созрела
для самостоятельного выполнения критически важных операций.

Детальный анализ выявил сильную зависимость производительности от
предметной области. Модели показали наилучшие результаты в доменах,
связанных с инструментами для совместной работы (Email, Teams), где
правила относительно просты и последовательны. Однако их эффективность
катастрофически снижалась в средах с высокой плотностью бизнес-логики,
множеством политик и сложными зависимостями данных. В частности, в
домене управления ИТ-услугами (ITSM) средний показатель успеха составил
всего 28.5%, а в
гибридных рабочих процессах, требующих
слаженной координации между несколькими системами, — 30.7%. Эти цифры
наглядно подчеркивают, что основная проблема заключается не в выполнении
простых команд, а в понимании сложного контекста и соблюдении неявных
правил корпоративной среды.

Главное узкое место: Планирование, а не исполнение

На фоне общих показателей производительности, которые пока не
позволяют говорить о надежном автономном развертывании, исследование
выявило неожиданный и ключевой инсайт. Главным препятствием на пути к
эффективности корпоративных ИИ-агентов оказалось не исполнение
конкретных команд или использование инструментов, а
планирование ИИ-агентов
в долгосрочной перспективе. Модели демонстрируют приемлемые навыки в
вызове API, но терпят неудачу, когда задача требует многошаговой логики и
понимания последствий каждого действия в сложной взаимосвязанной
системе.

Чтобы проверить эту гипотезу, исследователи провели элегантный
эксперимент под названием «Oracle». В его рамках агентам предоставлялся
готовый, составленный человеком план действий, а их задачей оставалось
лишь точное исполнение. Результаты оказались ошеломляющими:
производительность всех без исключения моделей выросла на 14-35
процентных пунктов. Этот скачок не просто улучшил показатели, он
кардинально изменил расстановку сил. Например, относительно небольшая
модель Qwen3-4B, получив «шпаргалку» от человека, смогла конкурировать с
такими гигантами, как GPT-4 и Claude 3 Opus. Это убедительно
доказывает, что именно
декомпозиция задачи и построение верной последовательности шагов являются ахиллесовой пятой современных архитектур.

Для дополнительного подтверждения вывода был проведен и обратный
эксперимент. В среду намеренно добавили «инструменты-отвлекатели», чтобы
усложнить для агента задачу поиска нужной функции среди множества
доступных. Вопреки ожиданиям, это практически не повлияло на итоговую
успешность. Агенты достаточно хорошо справлялись с идентификацией
релевантного инструмента, но по-прежнему проваливались в построении
общей стратегии. Таким образом,
стратегическое планирование,
а не вызов инструментов, является основным узким местом в
производительности ИИ-агентов. Проблема лежит не в плоскости «найти
молоток», а в плоскости «понять, что нужно построить дом, и разработать
для этого чертеж».

Однако столь резкое улучшение при внешнем планировании заставляет
задать и более глубокие вопросы. Возможно, дело не только в отсутствии у
моделей навыка планирования как такового. Улучшение производительности
на 14-35 процентных пунктов при предоставлении планов человеком может
указывать на
фундаментальные ограничения текущих LLM в
понимании контекста и логики, а не только на проблему планирования. С
другой стороны, критики могут возразить, что низкая производительность
может быть связана с чрезмерной сложностью бенчмарка, который не
отражает типичные задачи, для которых ИИ-агенты могут быть эффективно
применены на ранних стадиях внедрения. Не исключено, что он моделирует
настолько комплексные сценарии, что они пока находятся за пределами
возможностей агентов.

Режимы отказа и угрозы безопасности: Когда ИИ не умеет говорить «нет»

Помимо общего низкого процента успешности, качественный анализ выявил
повторяющиеся модели ошибок, которые проливают свет на фундаментальные
слабости современных ИИ-агентов. Исследователи выделили четыре основных
режима отказа, систематически проявляющихся в корпоративной среде.
Во-первых, это создание объектов без проверки необходимых предусловий,
что приводит к появлению «осиротевших» записей и нарушению целостности
баз данных. Во-вторых, агенты часто неспособны инициировать каскадные
действия, требуемые системными политиками после изменения состояния,
например, не отправляют уведомления после обновления статуса заявки.
Третья типичная ошибка — передача в инструменты непроверенных или
попросту угаданных идентификаторов, что ведет к непредсказуемым сбоям.
Наконец, наблюдается «
галлюцинация о преждевременном завершении«, когда агент объявляет задачу выполненной, не выполнив всех необходимых шагов.

Однако наиболее критической проблемой, выходящей за рамки простой
неэффективности, является неспособность агентов к безопасному отказу. В
реальных бизнес-процессах умение распознать и отклонить невыполнимую или
несанкционированную задачу (ключевой аспект
безопасного отказа ИИ)
так же важно, как и способность ее выполнить. Тестирование включало 30
заведомо невыполнимых заданий, нарушающих правила доступа или связанных с
неактивными пользователями. Результаты оказались тревожными: лучшая из
моделей смогла корректно отклонить их лишь в 53.9% случаев. Это
означает, что почти в половине ситуаций агент пытался выполнить
запрещенное действие, создавая прямые угрозы для целостности данных и
корпоративной безопасности.

Такие сбои — не просто технические недочеты, а источники серьезных
корпоративных рисков. Преждевременное развертывание ненадежных агентов
может привести к масштабным операционным сбоям, повреждению критически
важных баз данных и, как следствие, к потере доверия к системам
автоматизации на основе ИИ. В чувствительных областях, таких как
управление персоналом (HR) или обслуживание клиентов (CSM), ошибки или
«галлюцинации» агентов способны нанести прямой
репутационный ущерб компании
и необратимо испортить пользовательский опыт. Неспособность ИИ сказать
«нет» превращает его из помощника в потенциальный источник хаоса.

Поиски решений: От многоагентных систем до экономической эффективности

В поиске путей повышения производительности исследователи обратились к
более сложным архитектурам агентов. Однако результаты оказались
неоднозначными. Простая связка «Планировщик+Исполнитель», где одна
модель строит стратегию, а другая выполняет шаги, дала лишь скромный
прирост эффективности. Более амбициозный подход с использованием
многоагентных систем (MAS)
— совокупности нескольких автономных агентов, которые взаимодействуют
друг с другом для решения общей сложной задачи, — в большинстве случаев
приводил к регрессу. Причина кроется в специфике корпоративных доменов,
таких как CSM и HR. Задачи в этих областях сильно зависят от
последовательности состояний, и попытка разбить их на независимые
подзадачи для разных агентов нарушала критически важный контекст,
приводя к ошибкам и снижению итогового успеха.

Когда архитектурные ухищрения не приносят желаемого результата, на
первый план выходят экономические соображения. Исследование
EnterpriseOps-Gym наглядно демонстрирует, что существует четкий
компромисс между стоимостью и производительностью ИИ-моделей для
корпоративного внедрения. Этот баланс можно представить в виде
границы Парето, где каждая модель занимает свою нишу в зависимости от соотношения цены и качества.

Анализ этой границы выявляет несколько ключевых игроков. Модель
Gemini-3-Flash представляет собой наиболее практичный компромисс для
закрытых систем, предлагая приемлемую производительность при значительно
более низкой стоимости по сравнению с флагманами. В сегменте
open-source доминируют DeepSeek-V3.2 и GPT-OSS-120B, ставшие основными
вариантами для компаний, стремящихся к контролю над технологическим
стеком. На вершине надежности находится Claude Opus 4.5, который
показывает наилучшие результаты, но его использование сопряжено с самыми
высокими затратами. Впрочем, стоит помнить, что
экономические соображения
основаны на текущих ценах моделей, которые могут быстро меняться, делая
любые выводы о Парето-границе временными и требующими постоянного
пересмотра.

Дорожная карта для автономного будущего и три сценария развития

Исследование EnterpriseOps-Gym выносит однозначный, хотя и
отрезвляющий вердикт: между текущими возможностями передовых ИИ-агентов и
требованиями реальных корпоративных сред пролегает пропасть. Ключевая
проблема кроется не в исполнении команд, а в стратегическом планировании
и критически важной способности к безопасному отказу. Как показал
анализ, ограниченность «
бюджета на мышление» не
позволяет решить эти фундаментальные задачи простым наращиванием
вычислительных мощностей. В свете этих выводов будущее автономных систем
можно представить в виде трех сценариев. Позитивный: EnterpriseOps-Gym
становится отраслевым стандартом, стимулируя быстрое развитие
высоконадежных и безопасных ИИ-агентов, что приводит к революционным
изменениям в корпоративных операциях и значительному росту
эффективности. Нейтральный: бенчмарк способствует постепенному улучшению
производительности, но широкое внедрение остается ограниченным менее
критичными задачами из-за сохраняющихся проблем. Негативный: выявленные
ограничения оказываются слишком сложными для преодоления, что приводит к
разочарованию в технологии и замедлению инвестиций. Какой из путей
станет реальностью, зависит от того, сможет ли индустрия выйти за рамки
существующих подходов, ведь чрезмерная концентрация на текущих
архитектурах LLM может отвлечь от поиска принципиально новых решений.
Таким образом, EnterpriseOps-Gym — это не приговор, а необходимая
дорожная карта, указывающая на фундаментальные проблемы, которые
предстоит решить для наступления эры по-настояшему автономных
корпоративных ИИ.