21 подписчик

Nous Research выпустила связку моделей Mixture of Agents в Hermes Agent

ВчераВчера

2 мин

Идея Mixture of Agents (MoA, «смесь агентов») простая: вместо одного умного ИИ задачу решают сразу несколько. Сначала отрабатывают модели-референсы которые дают свои варианты ответа. Затем модель-агрегатор собирает из этих вариантов финальный результат и дальше работает в обычном цикле агента, т.е. вызывает инструменты, делает итерации, держит контекст сессии. В Hermes Agent каждый такой пресет выглядит как обычная модель. Её выбирают в том же меню, что и любую другую, через провайдера moa или команду /moa. Пресеты настраиваются вручную: можно смешивать модели разных провайдеров. В стандартном наборе, например, агрегатором стоит Claude Opus 4.8, а референсами - GPT-5.5 и DeepSeek-V4-Pro. Сам Teknium, сооснователь Nous, назвал релиз «Mixture of Agents 2.0». Заявленный прирост измерен на HermesBench - собственном тесте Nous, полный лидерборд которого ещё не опубликован. По таблице из документации связка из двух моделей обгоняет каждую из них по отдельности: КонфигурацияОценка HermesBench

Оглавление

Как MoA собирает из нескольких моделей одну
Цифры: +8% и +11%, но на домашнем бенчмарке
Чтобы обойти фронтир, нужен сам фронтир

Как MoA собирает из нескольких моделей одну

В Hermes Agent каждый такой пресет выглядит как обычная модель. Её выбирают в том же меню, что и любую другую, через провайдера moa или команду /moa. Пресеты настраиваются вручную: можно смешивать модели разных провайдеров. В стандартном наборе, например, агрегатором стоит Claude Opus 4.8, а референсами - GPT-5.5 и DeepSeek-V4-Pro.

Сам Teknium, сооснователь Nous, назвал релиз «Mixture of Agents 2.0».

Цифры: +8% и +11%, но на домашнем бенчмарке

Заявленный прирост измерен на HermesBench - собственном тесте Nous, полный лидерборд которого ещё не опубликован. По таблице из документации связка из двух моделей обгоняет каждую из них по отдельности:

КонфигурацияОценка HermesBenchMoA (агрегатор Opus 4.8 + референс GPT-5.5)0,8202Claude Opus 4.8 в одиночку0,7607GPT-5.5 в одиночку0,7412

Связка обходит свой же сильнейший компонент, Opus, примерно на 6 пунктов. Заявленные «8% и 11%» - это относительный отрыв от Opus и от GPT-5.5.

Здесь нужна оговорка. Бенчмарк свой, ещё не выложен целиком, и проверить его со стороны пока нельзя. Для контекста: на независимом SWE-bench Pro, где тестируют реальные задачи программирования, Opus 4.8 набирает 69,2%, а GPT-5.5 - 58,6%. Пройдёт ли MoA эти планки на чужих тестах - пока неясно.

Чтобы обойти фронтир, нужен сам фронтир

Главная нестыковка в красивой подаче: связка, которая «выходит за публичную границу», собрана из тех самых проприетарных моделей, которые она обходит. Чтобы запустить стандартный пресет, нужен доступ и к Opus 4.8, и к GPT-5.5. MoA не заменяет топовые модели, а оркестрирует их - прирост берётся из ансамбля нескольких мнений, а не из новой архитектуры.

Отсюда и цена. На каждой итерации агента запускается несколько моделей вместо одной, поэтому вычислений на запрос выходит больше. Nous частично гасит проблему сохранением кеша запросов (контекст диалога не пересобирается при переключении на пресет), но за дополнительные «мнения» всё равно приходится платить. Сама команда подаёт это как выгоду для узких задач: под конкретную работу подбираешь точный набор моделей, а не платишь за универсальность.

Выпад в сторону закрытых лабораторий

Тайминг и тон релиза говорят сами за себя. Накануне OpenAI открыла превью GPT-5.6 только избранным партнёрам и по согласованию с правительством США. Nous заходит с противоположного фланга: Hermes Agent - открытый проект (запущен в феврале 2026-го, с постоянной памятью между сессиями и встроенным циклом обучения), а MoA подаётся как способ получить «возможности выше доступной границы», не дожидаясь, пока тебя пустят к закрытому флагману.

Логика спорная - без доступа к Opus и GPT-5.5 стандартный пресет не соберёшь, но как маркетинговый жест против гейтинга она бьёт точно.

Проверочная точка - публичный лидерборд

Пока HermesBench не выложен полностью и связку не прогнали на независимых тестах, «выше фронтира» остаётся заявкой на домашнем бенчмарке. Судить о MoA можно будет по двум вещам: появится ли обещанный лидерборд с прозрачной методикой и оправдает ли прирост в несколько пунктов кратно выросшую стоимость запроса. Для агентных задач, где одиночная модель часто спотыкается, второе мнение действительно помогает. Вопрос в том, сколько за него готовы платить?