Каждый год страны, участвующие в Международной математической олимпиаде, приезжают с буклетом, содержащим их лучшие и наиболее оригинальные задачи. Эти буклеты передаются между делегациями, а затем незаметно исчезают. Никто никогда не собирал их систематически, не чистил и не делал доступными — ни для исследователей в области искусственного интеллекта, проверяющих пределы математического мышления, ни для студентов по всему миру, которые готовятся к этим соревнованиям в основном самостоятельно.
Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), университета науки и технологий имени короля Абдаллы (KAUST) и HUMAIN сделали именно это.
MathNet — это крупнейший из когда-либо созданных высококачественных наборов данных математических задач, основанных на доказательствах, и он не является закрытым. Включая более 30 000 задач и решений, созданных экспертами, из 47 стран, 17 языков и 143 соревнований, он в пять раз больше, чем следующий по величине набор данных подобного рода. Результаты работы будут представлены на Международной конференции по обучению представлениям ( ICLR 2026 ) в Бразилии в конце этого месяца.
Отличительной чертой MathNet является не только его размер, но и широта охвата. Предыдущие наборы данных олимпиадного уровня почти исключительно состояли из результатов соревнований в США и Китае. MathNet охватывает десятки стран на шести континентах, 17 языков, включает как текстовые, так и графические задачи и решения, а также охватывает четыре десятилетия соревнований по математике. Цель состоит в том, чтобы охватить весь спектр математических взглядов и традиций решения задач, существующих в мировом математическом сообществе, а не только самые известные из них.
«Каждая страна приносит с собой брошюру со своими самыми оригинальными и креативными проблемами, — говорит Шаден Альшаммари, аспирантка Массачусетского технологического института и ведущий автор статьи. — Они обмениваются этими брошюрами друг с другом, но никто не удосужился собрать их, отредактировать и выложить в интернет».
Для создания MathNet потребовалось отыскать 1595 PDF-томов общим объемом более 25 000 страниц, включающих цифровые документы и отсканированные копии многолетней давности на более чем десятке языков. Значительная часть этого архива поступила из неожиданного источника: от Навида Сафаи, давнего участника сообщества IMO и соавтора, который собирал и сканировал эти брошюры вручную с 2006 года. Его личный архив составил основу набора данных.
Источники данных имеют такое же значение, как и масштаб. В то время как большинство существующих математических наборов данных берут задачи с форумов сообщества, таких как Art of Problem Solving (AoPS), MathNet использует исключительно официальные сборники задач национальных конкурсов. Решения в этих сборниках написаны экспертами и прошли рецензирование, и часто занимают несколько страниц, в которых авторы рассматривают несколько подходов к одной и той же задаче.
Такая глубина позволяет моделям ИИ получать гораздо более ценный сигнал для обучения математическому мышлению, чем короткие, неформальные решения, типичные для наборов данных, созданных сообществом. Это также означает, что набор данных действительно полезен для студентов: любой, кто готовится к Международной математической олимпиаде или национальному конкурсу, теперь имеет доступ к централизованной, доступной для поиска коллекции высококачественных задач и решений из различных мировых традиций.
«Я помню так много студентов, для которых это была индивидуальная работа. Никто в их стране не готовил их к подобным соревнованиям, — сказала Альшаммари, которая сама участвовала в ИМО в студенческие годы. — Мы надеемся, что это даст им централизованное место с высококачественными проблемами и решениями, на основе которых они смогут учиться».
Команда имеет глубокие корни в сообществе ИМО. Султан Альбаракати, один из соавторов, в настоящее время входит в состав правления ИМО, и исследователи работают над тем, чтобы напрямую поделиться набором данных с фондом ИМО. Для проверки набора данных они собрали группу из более чем 30 экспертов-оценщиков из таких стран, как Армения, Россия, Украина, Вьетнам и Польша, которые скоординировали свои действия для проверки тысяч решений.
«База данных MathNet может стать отличным ресурсом как для студентов, так и для руководителей, ищущих новые задачи для работы или решения сложных вопросов, — говорит Таниш Патил, заместитель руководителя Международной олимпиадной лиги (IMO) Швейцарии. — Хотя существуют и другие архивы олимпиадных задач (в частности, форумы Contest Collections на AoPS), этим ресурсам не хватает стандартизированной системы форматирования, проверенных решений и важных метаданных задач, необходимых для понимания тем и теории. Также будет интересно посмотреть, как этот набор данных будет использован для повышения эффективности моделей рассуждений, и сможем ли мы в скором времени надежно ответить на важный вопрос при создании новых олимпиадных задач: определить, действительно ли задача является оригинальной».
MathNet также служит строгим эталоном для оценки производительности ИИ, и результаты показывают более сложную картину, чем могут показаться недавние заголовки о математических способностях ИИ. Передовые модели достигли необычайного прогресса: некоторые, как сообщается, получили золотые медали на Международной математической олимпиаде (IMO), а на стандартных тестовых задачах они теперь решают проблемы, которые поставили бы в тупик большинство людей. Но MathNet показывает, что прогресс неравномерен.
Даже GPT-5, лучшая из протестированных моделей, показала средний результат около 69,3% на основном бенчмарке MathNet, состоящем из 6400 задач, провалив почти каждую третью задачу олимпиадного уровня. А когда задачи включают в себя фигуры, производительность значительно падает по всем показателям, что выявляет визуальное мышление как постоянное слабое место даже самых способных моделей.
Несколько моделей с открытым исходным кодом показали нулевой результат в задачах на монгольском языке, что подчеркивает еще один аспект, в котором современные системы ИИ терпят неудачу, несмотря на свои общие преимущества. «Модели GPT одинаково хороши на английском и других языках, — сказал Альшаммари. — Но многие модели с открытым исходным кодом полностью терпят неудачу на менее распространенных языках, таких как монгольский».
Разнообразие MathNet также призвано устранить более глубокое ограничение в том, как модели ИИ изучают математику. Когда обучающие данные в основном состоят из задач на английском и китайском языках, модели усваивают узкий срез математической культуры. Румынская задача комбинаторики или бразильская задача теории чисел могут рассматривать одну и ту же базовую концепцию с совершенно разных точек зрения. По мнению исследователей, знакомство с таким разнообразием делает как людей, так и системы ИИ лучшими математическими мыслителями.
Помимо решения задач, MathNet вводит критерий оценки точности поиска, который проверяет, могут ли модели распознавать задачи, имеющие одинаковую базовую математическую структуру. Эта способность важна как для разработки ИИ, так и для самого математического сообщества. На протяжении многих лет на реальных экзаменах IMO встречались задачи, близкие по математической структуре, поскольку поиск математических эквивалентов в различных обозначениях, языках и форматах действительно сложен, даже для экспертных комиссий.
Протестировав восемь современных моделей встраивания, исследователи обнаружили, что даже самые сильные из них определяли правильное совпадение лишь примерно в 5% случаев с первой попытки, при этом модели часто оценивали структурно несвязанные задачи как более похожие, чем эквивалентные.
Набор данных также включает в себя бенчмарк генерации с расширенным поиском (RAG), проверяющий, улучшает ли производительность модель, если сначала дать ей задачу, структурно связанную с исходным кодом, а затем попросить решить новую. Да, улучшает, но только если найденная задача действительно релевантна. DeepSeek-V3.2-Speciale показал улучшение до 12 процентных пунктов при хорошо подобранном поиске, в то время как нерелевантный поиск ухудшил производительность примерно в 22% случаев.
Предоставлено Массачусетским технологическим институтом.