24 подписчика

OLMo 3.1 32B Think: Новая открытая модель ИИ для сложного мышления

14 декабря 202514 дек 2025

1 мин

ИИ-стартап Ai2 представил OLMo 3.1 32B Think – новую модель семейства OLMo 3, разработанную для решения сложных задач, требующих последовательного рассуждения. Модель распространяется под лицензией Apache 2.0, обеспечивая полный доступ к коду, контрольным точкам и данным обучения для исследовательских и образовательных целей. OLMo 3.1 32B Think – это трансформер-модель с 32 миллиардами параметров, обученная на англоязычном датасете Dolma 3 и прошедшая многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления. Разработчики Ai2 подчеркивают важность открытости: архитектура, данные и процесс обучения полностью задокументированы и доступны. Финальная версия модели формировалась в три этапа: SFT-обучение (математика, программирование, общение и инструкции), DPO (обучение выбору качественных рассуждений) и RLVR (обучение с подкреплением на основе проверяемых вознаграждений), которое обеспечило значительн

OLMo 3.1 32B Think – это трансформер-модель с 32 миллиардами параметров, обученная на англоязычном датасете Dolma 3 и прошедшая многоэтапное пост-обучение на специализированных наборах Dolci, направленных на развитие математического, алгоритмического и программного мышления. Разработчики Ai2 подчеркивают важность открытости: архитектура, данные и процесс обучения полностью задокументированы и доступны.

Финальная версия модели формировалась в три этапа: SFT-обучение (математика, программирование, общение и инструкции), DPO (обучение выбору качественных рассуждений) и RLVR (обучение с подкреплением на основе проверяемых вознаграждений), которое обеспечило значительный прирост производительности в задачах формального рассуждения.

В математическом бенчмарке MATH модель показала результат 96,2%, значительно превзойдя OLMo 2 32B Instruct (49,2%) и Qwen 2.5 32B (80,2%). В задачах AIME 2024 и AIME 2025 результаты составили 80,6% и 78,1% соответственно, что выше большинства открытых аналогов. В наборе OMEGA модель достигла 53,4% (OLMo 2 32B – менее 10%). В логическом мышлении – 88,6% на BigBenchHard, 80,1% на ZebraLogic и 89,2% на AGI Eval English. В программировании – 91,5% на HumanEvalPlus и 83,3% на LiveCodeBench v3, что сопоставимо с лучшими открытыми моделями для агентного кодинга. Результаты в тестах на следование инструкциям также улучшились: 93,8% на IFEval и 68,1% на IFBench.

Модель набрала 86,4% на MMLU и 57,5% на GPQA, уступая некоторым закрытым и мультимодальным решениям, но оставаясь конкурентоспособной в открытом сегменте. В диалоговых оценках AlpacaEval 2 LC результат составил 69,1%, а по безопасности – 83,6%, что свидетельствует о более устойчивом поведении. OLMo 3.1 32B Think доступна в формате BF16 и совместима с библиотекой Transformers, vLLM и другими движками инференса.

Ну что ж, похоже, теперь даже нейросетям нужно три этапа обучения, чтобы понять, что от них хотят. А мы-то думали, что все проще.