Найти в Дзене
Social Mebia Systems

DeepSeekMath V2: когда ИИ выигрывает «золото» на математических олимпиадах

В конце 2025 года китайская DeepSeek делает шаг, который ещё пару лет назад казался фантастикой: открывает модель, способную решать задачи уровня золота на Международной математической олимпиаде (IMO). DeepSeekMath‑V2 не просто «считает лучше людей» — она доказывает теоремы, проходит через формальные критерии оценивания, и сама проверяет свои доказательства.

Это не очередное демо, а серьёзный сигнал: ИИ переходит от угадывания ответов к строгому математическому рассуждению, причём с элементами самоконтроля.

Олимпиадный «золотой стандарт» для машины

DeepSeekMath‑V2 тестировали не только по искусственным бенчмаркам, а на реальных соревнованиях:

  • IMO 2025 — уровень золотой медали;
  • Китайская математическая олимпиада CMO 2024 — также золотой уровень;
  • Студенческий конкурс Putnam 2024 — модель набрала 118 баллов из 120, тогда как лучший человеческий результат в том году — около 90.

На специализированном наборе IMO‑ProofBench DeepSeekMath‑V2 обходит модель Google DeepThink (до этого считавшуюся «олимпиадным чемпионом» среди ИИ) примерно на 10 процентных пунктов. То есть речь уже не о тонком превосходстве в проценты, а о заметном отрыве.

Важно, что разработчики сразу открыли модель и выложили её на Hugging Face, а также опубликовали статью с подробностями архитектуры и обучения. DeepSeek продолжает свою линию: флагманские модели — в открытом доступе, а не только через закрытые API.

От «угадай ответ» к доказательству

До недавнего времени большинство ИИ‑систем для математики оценивали по финальному ответу: правильно ли выдано число или короткий результат. Для олимпиад вроде AIME или HMMT этого было достаточно. Но у такого подхода два фундаментальных недостатка:

  1. Можно «случайно угадать»: модель приходит к правильному ответу через логические дыры, пропуски или вовсе по нестрогой эвристике.
  2. Непригодность для теорем и доказательств, где нет «одной цифры в конце», а важна корректность всей цепочки рассуждений.

DeepSeekMath‑V2 решает именно эту проблему: она обучена генерировать и проверять развёрнутые доказательства, ориентируясь не только на финальный результат, но и на структуру аргументации.

Как устроена самопроверка

Под капотом у DeepSeekMath‑V2 — связка из двух взаимосвязанных ролей:

  • генератор доказательств — строит решение задачи и полное доказательство;
  • верификатор (проверяющий) — анализирует доказательство по заранее заданным критериям, оценивает его как «эксперт‑математик» и выставляет балл.

Главная идея — научить модель:

  1. Понимать, какой именно критерий оценивания используется;
  2. Не просто выдавать ответ, а целенаправленно строить доказательство, максимизирующее этот «оценочный функционал».

Для этого команда DeepSeek:

  • разработала подробную шкалу оценивания доказательств, имитирующую работу жюри олимпиад;
  • натренировала верификатор по этой шкале — так, чтобы он различал полноценные, частичные и ошибочные решения;
  • использовала двойную систему наград при обучении:
  • за корректный формат (структура доказательства, оформление шагов);
  • за содержательный балл (насколько доказательство действительно правильное и полное).

Чтобы избежать трюка, когда модель‑верификатор просто «выдумывает» задачи и оценки, получая максимальную награду независимо от реальности, ввели дополнительный уровень — мета‑верификацию: вторую проверку, оценивающую честность и согласованность работы первого верификатора. Это существенно увеличивает устойчивость системы к «обману самой себя».

Замкнутый цикл: генератор и проверяющий качают друг друга

После настройки верификатора DeepSeek обучает уже генератор доказательств, снова с использованием обучения с подкреплением:

  • генератор пишет полное решение;
  • верификатор выставляет балл;
  • модель корректирует свои стратегии рассуждения, чтобы увеличивать средний балл на новых задачах.

Возникает замкнутый цикл:

  1. Генератор создаёт новые, всё более сложные для себя доказательства.
  2. Эти доказательства становятся обучающим материалом для верификатора.
  3. Улучшенный верификатор начинает жёстче и точнее оценивать новые попытки.
  4. Генератор вынужден подстраиваться и совершенствовать стиль мышления.

В итоге система учится не только решать задачи, но и распознавать слабые места в собственных решениях. В экспериментах видно: на самых сложных заданиях, где модель не доводит решение до конца, она часто явно отмечает, на каком шаге возникает реальная трудность, а не «притворяется законченной».

Результаты: выше топ‑моделей — и всё ещё не предел

Сравнительные тесты показывают:

  • на задачах уровня CNML (олимпиадная школьная математика: алгебра, геометрия, теория чисел, комбинаторика, неравенства) DeepSeekMath‑V2 стабильно превосходит такие модели, как GPT‑5‑Thinking‑High и Gemini 2.5‑Pro;
  • при увеличении вычислительных ресурсов на этапе вывода (многократное построение/проверка доказательств) модель может решать до 5 из 6 задач IMO 2025 и большинство задач CMO 2024 на золотом уровне, оставляя лишь самые экстремальные задачи частично нерешёнными.

Даже там, где модель не справляется полностью, её поведение важно: она обычно корректно идентифицирует проблемный участок доказательства, что уже ценно как инструмент для исследователей и студентов.

Зачем это нужно за пределами олимпиад

На первый взгляд, это всё про «игрушку для математиков». Но в действительности речь о серьёзном шаге к самопроверяющимся ИИ‑системам:

  • вместо чёрного ящика, выдающего ответ, мы получаем ИИ, который:
  • строит последовательный аргумент;
  • умеет критически анализировать себя;
  • может циклически улучшать свои стратегии рассуждения.

Такие механизмы необходимы:

  • в научных исследованиях — при проверке сложных доказательств, формальных выкладок, оптимизаций;
  • в криптографии и безопасности — где цена ошибки чрезвычайно высока;
  • в инженерных расчётах, автоматизации проектирования и верификации ПО;
  • в будущем — в системах, где ИИ будет участвовать в создании новых теорий, а не только в решении школьных задач.

DeepSeekMath‑V2 демонстрирует, что обучить модель осмысленной самооценке в сложных рассуждениях возможно. Да, до уровня полноценного «исследовательского математика» далеко: самые сложные задачи IMO и уж тем более новые открытые проблемы остаются серьёзным барьером. Но принципиальный барьер — переход от «угадывания ответа» к контролируемому, проверяемому рассуждению — уже начал разрушаться.

Шаг к ИИ, который умеет сомневаться

Главная ценность DeepSeekMath‑V2 не только в медалях на олимпиадах и красивых графиках в статье. Она в том, что:

  • ИИ можно заставить относиться к собственным выводам как к объекту анализа, а не как к «истине по умолчанию»;
  • наградой для модели становится не просто совпадение с ответом, а качественная структура мысли;
  • самопроверка перестаёт быть внешним надзором и превращается во внутреннюю компетенцию системы.

Для будущих систем общего ИИ это критически важно: если мы хотим доверять ИИ‑ассистентам в науке, инженерии, медицине и политике, они должны уметь не только быстро считать, но и видеть границы своей уверенности, указывать на слабые места и, по возможности, исправлять их до того, как ошибку заметит человек.

Работа DeepSeek показывает: этот путь реален. И, возможно, именно через такие «математические тренажёры» мы постепенно придём к ИИ, который сможет решать уже не олимпиадные, а по‑настоящему исследовательские задачи — и делать это с той степенью самоконтроля, без которой любая сверхсильная система остаётся опасным чёрным ящиком.