Пару месяцев 2026‑го в мире агент‑AI случилось заметное событие: на двух ключевых бенчмарках — GAIA и BrowseComp‑Plus — одновременно оказались на вершине два новых проекта, построенные на одном открытом стеке — openJiuwen.
DeepAgent возглавил GAIA, DeepSearch — BrowseComp‑Plus. Это не просто полосатый успех стартапа: за ним — сдвиг в том, что считается «боеготовым» агентом для реальных задач.
Почему это важно: от «диалога» к «выполнению»
Прошлый год запомнился взрывом агентских решений: многие системы могли вести убедительные диалоги, но не все умели надёжно решать реальные, мульти‑шаговые задачи в открытом мире. Бенчмарки GAIA и BrowseComp‑Plus задуманы именно как фильтры зрелости: они проверяют не только понимание языка, но и многозвенные планы, инструментальные интеграции, мультимодальность, устойчивость к сбоям и воспроизводимость решений.
- GAIA (созданный при участии Meta и Hugging Face) измеряет общие агент‑способности — планирование, мультимодальность, вызов инструментов и устойчивое завершение задач на уровнях, близких к человеческому. По справке GAIA, средний успешный процент у людей ~92%, а у сильных LLM с плагинами — намного ниже. Счёт DeepAgent: 91.69% — это почти человеческий результат. (Ссылка на лидерборд: GAIA leaderboard.)
- BrowseComp‑Plus критически оценивает глубинный веб‑поиск и многопрыжковое извлечение доказательств — точность, интеграция источников и устойчивость к «шуму» в интернете. DeepSearch возглавил и этот список с ~80% точности.
Такие показатели говорят: речь идёт не только о «хорошем LLM», а о системном агенте, способном планировать, исполнять цепочки действий, корректировать ошибки и обосновывать выводы.
Что сделали DeepAgent и DeepSearch
Авторы материала выделяют архитектурные принципы, которые сделали возможным такой прорыв:
- Замкнутые исполнительные циклы с самокоррекцией
- Агент умеет не только разбивать задачу на шаги, но и мониторить ход выполнения, фиксировать отклонения и откатывать/корректировать локально — это предотвращает «убегание» выполнения в неверное состояние.
- Многоуровневая система контекста и доказательств
- Удержание долгосрочной когерентности через слоистую память: диалоги, проектные знания, правила домена и цепочки источников хранятся и ссылаются при каждом выводе, что даёт объяснимость и прослеживаемость.
- Унифицированный шина‑оркестратор инструментов
- Внешние API, поиск, покупка, динамические формы — всё стандартизовано и оркестровано централизованно, с возможностью асинхронных вызовов, повторных попыток, логирования и воспроизведения.
На практике это выглядит как агент, которому можно дать сложную, «жестко‑реальную» задачу (например: на основе ролика YouTube составить список ингредиентов, найти их на торговых площадках, сравнить цены и подготовить корзину) — и он выполнит весь сценарий до готовности к оплате.
Роль openJiuwen: открытый каркас для «производственных» агентов
Общий технологический базис обоих продуктов — openJiuwen. По описанию, это open‑source платформа, спроектированная для промышленного использования агент‑систем:
- нативная поддержка многопроцессных и многопоточечных агентов;
- встроенная внешняя память, механизм самодиагностики и самообучения агентов (self‑evolving modules);
- асинхронное сжатие и выгрузка контекста для долгоживущих задач;
- стандартный контроллер/оркестратор для инструментов и API с трассируемостью и возможностью ревизии.
Проект уже нашёл коммерческое применение: интеграции с облачными платформами, промышленными агент‑системами, и пилоты в финансовом и производственном секторах. Исходники доступны по ссылке: openJiuwen на GitCode и официальный сайт: openJiuwen.com.
Что это значит для индустрии
- Переход к «производственным агентам». Агент перестаёт быть демонстрацией языка — он становится инструментом, интегрируемым в бизнес‑процессы. Критерии успеха — стабильность, объяснимость и способность к самокоррекции.
- Open‑stack как драйвер доступности. Наличие зрелой открытой платформы снижает барьер входа: команды могут строить надежных агентов без полного «великого стека» с нуля.
- Смена фокуса инвестиций. Больше внимания — на оркестрацию инструментов, память, диагностику и инженерию надёжности, а не только на масштаб модели.
Заключение
Победы DeepAgent и DeepSearch на строгих бенчмарках — показатель, что эпоха «может говорить» сменилась эпохой «может делать и отвечать за результат». Если openJiuwen действительно станет де‑факто платформой для производства агентов, мы стоим на пороге следующего этапа масштабирования AI: от одиночных больших моделей — к многокомпонентным, самоуправляемым системам, готовым брать на себя сложные, долгие и критичные рабочие процессы.
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/