Лучшая модель для решения математических задач Исследователи представили новую модель DeepSeekMath-V2, которая делает шаг к «самопроверяемой» математике для ИИ. Большие языковые модели уже заметно продвинулись в решении задач на рассуждение и за последний год научились проходить олимпиады вроде AIME и HMMT за счёт обучения с подкреплением по правильному ответу. Но такой подход принципиально ограничен: верный ответ не означает корректное доказательство, а для теорем вообще часто нет «числового» финала, за который можно выдать награду. Авторы предлагают другую схему: сначала обучают LLM-верификатор, который проверяет полноту и корректность математических доказательств, затем используют его как функцию награды для генератора доказательств. Генератор учится находить и исправлять ошибки в своих рассуждениях до тех пор, пока верификатор не примет доказательство. Масштабируя вычисления на этапе проверки, исследователи постепенно усиливают и генератор, и проверяющую модель. Итог — DeepSeekMa