67,8 тыс подписчиков

Лучшая модель для решения математических задач

29 ноября29 ноя

1 мин

Лучшая модель для решения математических задач Исследователи представили новую модель DeepSeekMath-V2, которая делает шаг к «самопроверяемой» математике для ИИ. Большие языковые модели уже заметно продвинулись в решении задач на рассуждение и за последний год научились проходить олимпиады вроде AIME и HMMT за счёт обучения с подкреплением по правильному ответу. Но такой подход принципиально ограничен: верный ответ не означает корректное доказательство, а для теорем вообще часто нет «числового» финала, за который можно выдать награду. Авторы предлагают другую схему: сначала обучают LLM-верификатор, который проверяет полноту и корректность математических доказательств, затем используют его как функцию награды для генератора доказательств. Генератор учится находить и исправлять ошибки в своих рассуждениях до тех пор, пока верификатор не примет доказательство. Масштабируя вычисления на этапе проверки, исследователи постепенно усиливают и генератор, и проверяющую модель. Итог — DeepSeekMa

Исследователи представили новую модель DeepSeekMath-V2, которая делает шаг к «самопроверяемой» математике для ИИ. Большие языковые модели уже заметно продвинулись в решении задач на рассуждение и за последний год научились проходить олимпиады вроде AIME и HMMT за счёт обучения с подкреплением по правильному ответу. Но такой подход принципиально ограничен: верный ответ не означает корректное доказательство, а для теорем вообще часто нет «числового» финала, за который можно выдать награду.

Авторы предлагают другую схему: сначала обучают LLM-верификатор, который проверяет полноту и корректность математических доказательств, затем используют его как функцию награды для генератора доказательств. Генератор учится находить и исправлять ошибки в своих рассуждениях до тех пор, пока верификатор не примет доказательство. Масштабируя вычисления на этапе проверки, исследователи постепенно усиливают и генератор, и проверяющую модель. Итог — DeepSeekMath-V2 показывает сильные результаты: золотые оценки на IMO-2025 и CMO-2024 и почти идеальные 118/120 на Putnam-2024. Авторы считают, что самопроверяемые математические рассуждения могут стать важным направлением в развитии ИИ для науки.