Alibaba Cloud представила новую большую языковую модель с открытым исходным кодом Qwen2-Math. Платформа представляет собой набор специализированных модулей, обученных на английском языке и демонстрирующих высокую точность в решении математических задач разной сложности.
Старшая версия в лице Qwen2-Math-72B-Instruct превосходит по качеству ИИ-модели от таких компаний, как OpenAI, Anthropic и Google. LLM демонстрирует точность в 84% на бенчмарке MATH, в который входят 12 500 сложных математических задач.
Работа Qwen2-Math впечатляет не только в рамках комплексных тестов, но и в бенчмарках со школьной и университетской математикой. К примеру, платформа показала 96,7% в GSM8K и 47,8% в College Math.
Примечательно, что самая компактная модель Qwen2-Math-1.5B может посоревноваться с более крупными LLM, не уступая им в вычислениях. Поэтому Qwen2-Math подойдёт для стартапов, бизнеса и научных организаций. Позднее авторы намерены добавить поддержку других языков и усовершенствовать работу алгоритмов.