Найти в Дзене
end0

AgentCPM-Explore — редкий случай, когда «маленький» реально дерётся со «взрослыми

» OpenBMB выложили в open-source AgentCPM-Explore — агентную модель всего на 4B параметров, которая на длинных агентных бенчмарках уверенно обгоняет 8B-модели и вплотную подбирается к 30B+, а местами и к закрытым решениям. Что важно: • 4B параметра, но SOTA-уровень для своего класса • Проходит GAIA, HLE, BrowserComp и другие long-horizon агентные бенчмарки • Поддержка 100+ шагов автономного взаимодействия • Мульти-источниковая проверка информации и динамическая стратегия поиска • Реально ориентирована на on-device и локальных агентов Отдельный жирный плюс — открыт не только вес модели, а весь стек целиком: • AgentRL — асинхронный RL-фреймворк для обучения агентов • AgentDock — платформа для sandbox-инструментов и их оркестрации • AgentToLeaP — one-click оценка агентных навыков • Полный пайплайн обучения и воспроизводимые эксперименты По xbench-DeepSearch 4B AgentCPM-Explore держится на уровне ~70%, что выглядит особенно неловко для моделей в 8–32B и закрытых «исследовательских» р

AgentCPM-Explore — редкий случай, когда «маленький» реально дерётся со «взрослыми»

OpenBMB выложили в open-source AgentCPM-Explore — агентную модель всего на 4B параметров, которая на длинных агентных бенчмарках уверенно обгоняет 8B-модели и вплотную подбирается к 30B+, а местами и к закрытым решениям.

Что важно:

• 4B параметра, но SOTA-уровень для своего класса

• Проходит GAIA, HLE, BrowserComp и другие long-horizon агентные бенчмарки

• Поддержка 100+ шагов автономного взаимодействия

• Мульти-источниковая проверка информации и динамическая стратегия поиска

• Реально ориентирована на on-device и локальных агентов

Отдельный жирный плюс — открыт не только вес модели, а весь стек целиком:

• AgentRL — асинхронный RL-фреймворк для обучения агентов

• AgentDock — платформа для sandbox-инструментов и их оркестрации

• AgentToLeaP — one-click оценка агентных навыков

• Полный пайплайн обучения и воспроизводимые эксперименты

По xbench-DeepSearch 4B AgentCPM-Explore держится на уровне ~70%, что выглядит особенно неловко для моделей в 8–32B и закрытых «исследовательских» решений.

Это уже не история про «больше параметров — больше ума». Это про архитектуру, обучение и агентный фокус.

GitHub: https://github.com/OpenBMB/AgentCPM

Hugging Face: https://huggingface.co/openbmb/AgentCPM-Explore

#AI #LLM #OpenSourceAI #AgenticAI #AIAgents #LocalAI #GAIA #OpenBMB #HuggingFace #DeepResearch

-2