31 подписчик

DeepAgent и DeepSearch во главе списков — как открытый проект openJiuwen перезапускает эру производственных агент систем

12 февраля12 фев

4 мин

Пару месяцев 2026‑го в мире агент‑AI случилось заметное событие: на двух ключевых бенчмарках — GAIA и BrowseComp‑Plus — одновременно оказались на вершине два новых проекта, построенные на одном открытом стеке — openJiuwen. DeepAgent возглавил GAIA, DeepSearch — BrowseComp‑Plus. Это не просто полосатый успех стартапа: за ним — сдвиг в том, что считается «боеготовым» агентом для реальных задач. Почему это важно: от «диалога» к «выполнению» Прошлый год запомнился взрывом агентских решений: многие системы могли вести убедительные диалоги, но не все умели надёжно решать реальные, мульти‑шаговые задачи в открытом мире. Бенчмарки GAIA и BrowseComp‑Plus задуманы именно как фильтры зрелости: они проверяют не только понимание языка, но и многозвенные планы, инструментальные интеграции, мультимодальность, устойчивость к сбоям и воспроизводимость решений. Такие показатели говорят: речь идёт не только о «хорошем LLM», а о системном агенте, способном планировать, исполнять цепочки действий, корректи

DeepAgent возглавил GAIA, DeepSearch — BrowseComp‑Plus. Это не просто полосатый успех стартапа: за ним — сдвиг в том, что считается «боеготовым» агентом для реальных задач.

Почему это важно: от «диалога» к «выполнению»

Прошлый год запомнился взрывом агентских решений: многие системы могли вести убедительные диалоги, но не все умели надёжно решать реальные, мульти‑шаговые задачи в открытом мире. Бенчмарки GAIA и BrowseComp‑Plus задуманы именно как фильтры зрелости: они проверяют не только понимание языка, но и многозвенные планы, инструментальные интеграции, мультимодальность, устойчивость к сбоям и воспроизводимость решений.

GAIA (созданный при участии Meta и Hugging Face) измеряет общие агент‑способности — планирование, мультимодальность, вызов инструментов и устойчивое завершение задач на уровнях, близких к человеческому. По справке GAIA, средний успешный процент у людей ~92%, а у сильных LLM с плагинами — намного ниже. Счёт DeepAgent: 91.69% — это почти человеческий результат. (Ссылка на лидерборд: GAIA leaderboard.)
BrowseComp‑Plus критически оценивает глубинный веб‑поиск и многопрыжковое извлечение доказательств — точность, интеграция источников и устойчивость к «шуму» в интернете. DeepSearch возглавил и этот список с ~80% точности.

Такие показатели говорят: речь идёт не только о «хорошем LLM», а о системном агенте, способном планировать, исполнять цепочки действий, корректировать ошибки и обосновывать выводы.

Что сделали DeepAgent и DeepSearch

Авторы материала выделяют архитектурные принципы, которые сделали возможным такой прорыв:

Замкнутые исполнительные циклы с самокоррекцией

Агент умеет не только разбивать задачу на шаги, но и мониторить ход выполнения, фиксировать отклонения и откатывать/корректировать локально — это предотвращает «убегание» выполнения в неверное состояние.

Многоуровневая система контекста и доказательств

Удержание долгосрочной когерентности через слоистую память: диалоги, проектные знания, правила домена и цепочки источников хранятся и ссылаются при каждом выводе, что даёт объяснимость и прослеживаемость.

Унифицированный шина‑оркестратор инструментов

Внешние API, поиск, покупка, динамические формы — всё стандартизовано и оркестровано централизованно, с возможностью асинхронных вызовов, повторных попыток, логирования и воспроизведения.

На практике это выглядит как агент, которому можно дать сложную, «жестко‑реальную» задачу (например: на основе ролика YouTube составить список ингредиентов, найти их на торговых площадках, сравнить цены и подготовить корзину) — и он выполнит весь сценарий до готовности к оплате.

Роль openJiuwen: открытый каркас для «производственных» агентов

Общий технологический базис обоих продуктов — openJiuwen. По описанию, это open‑source платформа, спроектированная для промышленного использования агент‑систем:

нативная поддержка многопроцессных и многопоточечных агентов;
встроенная внешняя память, механизм самодиагностики и самообучения агентов (self‑evolving modules);
асинхронное сжатие и выгрузка контекста для долгоживущих задач;
стандартный контроллер/оркестратор для инструментов и API с трассируемостью и возможностью ревизии.

Проект уже нашёл коммерческое применение: интеграции с облачными платформами, промышленными агент‑системами, и пилоты в финансовом и производственном секторах. Исходники доступны по ссылке: openJiuwen на GitCode и официальный сайт: openJiuwen.com.

Что это значит для индустрии

Переход к «производственным агентам». Агент перестаёт быть демонстрацией языка — он становится инструментом, интегрируемым в бизнес‑процессы. Критерии успеха — стабильность, объяснимость и способность к самокоррекции.
Open‑stack как драйвер доступности. Наличие зрелой открытой платформы снижает барьер входа: команды могут строить надежных агентов без полного «великого стека» с нуля.
Смена фокуса инвестиций. Больше внимания — на оркестрацию инструментов, память, диагностику и инженерию надёжности, а не только на масштаб модели.

Заключение

Победы DeepAgent и DeepSearch на строгих бенчмарках — показатель, что эпоха «может говорить» сменилась эпохой «может делать и отвечать за результат». Если openJiuwen действительно станет де‑факто платформой для производства агентов, мы стоим на пороге следующего этапа масштабирования AI: от одиночных больших моделей — к многокомпонентным, самоуправляемым системам, готовым брать на себя сложные, долгие и критичные рабочие процессы.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/