33 подписчика

DeepSeekMath V2: как открытый ИИ берёт «золото» на олимпиадах и бросает вызов Google и GPT 5

28 ноября 202528 ноя 2025

6 мин

После относительно тихого периода DeepSeek вернулась громко и агрессивно. Новый релиз DeepSeekMath‑V2 стал не просто очередной моделью, а первым в мире открытым ИИ уровня золотой медали Международной математической олимпиады (IMO). И по ряду показателей он напрямую обходит флагманский олимпийский ИИ Google — Gemini Deep Think — и подбирается к внутренним системам OpenAI. Это не только технологический прорыв, но и важный политический жест в споре «закрытое против открытого ИИ». Открытый «олимпиадник»: где и как DeepSeek победил DeepSeekMath‑V2 построен на базе DeepSeek V3.2 Exp Base и сразу тестировался на самых жёстких математических рубежах: На бенчмарке IMO‑ProofBench: Главное — модель полностью открыта: доступны веса, код, статья. В мире, где топовые системы OpenAI и Google остаются «чёрными ящиками», это серьёзное усиление позиций открытого ИИ. Почему «просто правильный ответ» больше не работает До сих пор стандартная стратегия обучения ИИ математике была проста: На конкурсах уровн

После относительно тихого периода DeepSeek вернулась громко и агрессивно. Новый релиз DeepSeekMath‑V2 стал не просто очередной моделью, а первым в мире открытым ИИ уровня золотой медали Международной математической олимпиады (IMO). И по ряду показателей он напрямую обходит флагманский олимпийский ИИ Google — Gemini Deep Think — и подбирается к внутренним системам OpenAI.

Это не только технологический прорыв, но и важный политический жест в споре «закрытое против открытого ИИ».

Открытый «олимпиадник»: где и как DeepSeek победил

DeepSeekMath‑V2 построен на базе DeepSeek V3.2 Exp Base и сразу тестировался на самых жёстких математических рубежах:

IMO 2025 — решены 5 из 6 задач, что соответствует уровню золотой медали;
CMO 2024 (Китайская матолимпиада) — также золотой уровень;
Putnam 2024 — 118 баллов из 120, выше, чем лучший человеческий результат (около 90 баллов).

На бенчмарке IMO‑ProofBench:

на ProofBench‑Basic DeepSeekMath‑V2 уверенно превосходит Google Gemini Deep Think;
на ProofBench‑Advanced вплотную догоняет его, оставаясь конкурентоспособным на самых сложных теоремах.

Главное — модель полностью открыта: доступны веса, код, статья. В мире, где топовые системы OpenAI и Google остаются «чёрными ящиками», это серьёзное усиление позиций открытого ИИ.

Почему «просто правильный ответ» больше не работает

До сих пор стандартная стратегия обучения ИИ математике была проста:

дал задачу;
сравнил ответ с эталоном;
совпало — награда, нет — штраф.

На конкурсах уровня AIME или HMMT это работает: итог — число или короткий ответ. Но на уровне IMO и Putnam центр тяжести смещён: важен не результат, а строгое доказательство.

Старые модели легко «читерили»:

выдавали формально правильный ответ,
при этом логика пути была рваной, с пропусками, иногда просто выдуманной.

На олимпиаде такой «ответ без доказательства» оценивается нулём. Значит, если мы хотим серьёзного ИИ‑математика, нужно учить его доказывать и проверять себя, а не просто угадывать числа.

Три роли в одном мозге: генератор, судья и аудитор

DeepSeekMath‑V2 опирается на изящную архитектуру «самоспора» — в модели живут сразу три условных персонажа.

«Решатель задач» (Generator)
Отвечает за то, чтобы:

построить решение и полное доказательство;
сопроводить его самооценкой: где он уверен, а где — нет.

Наградой здесь служит не столько совпадение с ответом, сколько:

честное указание на слабые места;
стремление исправить найденные ошибки до финального вывода.

Моделью управляют так, чтобы честно признать сомнение было выгоднее, чем «нагло объявить себя правой».

«Жёсткий экзаменатор» (Verifier)
Специализированный верификатор‑LLM, который:

читает доказательство целиком;
оценивает его по шкале, похожей на олимпиадную:
1 — строгое, полное доказательство;
0.5 — общая идея верна, но есть недочёты или недосказанности;
0 — есть фатальная логическая ошибка или пробел.

Его задача — не смотреть на финальный ответ, а оценивать качество рассуждения как эксперт‑математик.

«Аудитор судьи» (Meta‑Verifier)
Чтобы сам «экзаменатор» не превращался в новый источник ошибок, вводится третий уровень:

meta‑верификатор проверяет, настоящие ли ошибки нашёл Verifier;
соответствует ли их тяжесть выставленному баллу;
не «придумал» ли Verifier проблему там, где доказательство корректно.

За счёт такого «надзора над надзирателем» качество оценок верификатора поднимают с ~0.85 до ~0.96 по внутренним метрикам — уже почти на уровне сильного человеческого эксперта.

В этой тройке DeepSeek выстраивает замкнутый цикл самосовершенствования: решатель учится доказывать и сомневаться, экзаменатор — строго проверять, а аудитор — держать экзаменатора в тонусе.

Машина, которая спорит сама с собой — и выигрывает

Дальше включается обучение с подкреплением:

генератор пишет доказательства;
верификатор ставит баллы и указывает ошибки;
meta‑верификатор следит за качеством этой критики;
по итогам всей цепочки генератор корректирует свои стратегии мышления.

По мере роста навыков:

генератор производит всё более сложные и изощрённые доказательства;
они выявляют тонкие слабости в работе верификатора;
эти слабости становятся новым ценным обучающим материалом для самого верификатора.

В финальных итерациях команда смогла полностью заменить ручную разметку автоматизированной связкой «генератор + верификатор + мета‑верификатор» — и последующие проверки показали высокое совпадение с решениями людей‑экспертов.

«Подумай ещё раз»: сила многократного пересмотра

Особый интерес вызывают эксперименты по «многократному мышлению»:

если дать модели ровно один шанс (one‑shot), DeepSeekMath‑V2 уже превосходит GPT‑5‑Thinking‑High и Gemini 2.5‑Pro по всем разделам тестового набора CNML (алгебра, геометрия, теория чисел, комбинаторика, неравенства), местами — в разы;
но когда системе разрешают несколько циклoв «реши → проверь себя → перереши», качество скачкообразно растёт.

На IMO‑шортлисте:

после одной попытки средний балл был ~0.15;
после 8 итераций самопроверки и перегенерации — уже ~0.27;
если среди 32 попыток модель сама выбирает лучшую (Best@32), оценка взлетает до ~0.42.

Это не просто «подбор», а признак самоосознанности модели: она не только улучшает решения, но и довольно надёжно знает, какое из них стоит считать лучшим.

«Жёсткий режим вычислений» и почти идеальный Putnam

Чтобы добиться исторического результата на Putnam и олимпиадах, DeepSeek применяет «брутальный», но показательный режим:

На каждую задачу генерируется 64 варианта доказательства.
Каждый вариант проходит 64 независимых проверки со стороны верификатора.
К полным решениям засчитываются только те, что проходят все проверки без замечаний.

Эта комбинация глубокой генерации и жёсткой фильтрации позволила:

решить 5 из 6 задач IMO 2025;
показать золотой уровень на CMO 2024;
набрать почти максимум на Putnam 2024.

При этом важно, что:

для задач, которые модель не решила полностью, она в большинстве случаев корректно локализует место провала в своём рассуждении;
для решённых задач цепочка проверок почти не находит логических дыр.

Это сильный аргумент в пользу того, что LLM‑верификаторы действительно могут достигать уровня надёжности, достаточного для работы с нетривиальными доказательствами.

Почему это удар не только по Google, но и по закрытым моделям в целом

Конкуренция с Gemini Deep Think — лишь часть истории. Более широкий эффект DeepSeekMath‑V2 в том, что:

путь к ИИ‑рассуждению с самопроверкой не монополизирован закрытыми лабораториями;
сообщество получает не просто «готовую чёрную коробку», а:
открытые веса,
описанную методику обучения генератора, верификатора и мета‑верификатора,
исходники, пригодные для воспроизведения и развития.

На этом фоне фраза «GPT‑5 в опасности» в заголовках — не буквальный «убийство GPT‑5», а указание на другое: монополия нескольких корпораций на самые продвинутые способности ИИ становится менее устойчивой. Там, где раньше «только закрытые могли», теперь демонстративно добирается и открытый стек — пусть пока в узкой, но очень показательной области.

Шаг к ИИ, который умеет сомневаться

DeepSeekMath‑V2 важен не только как «олимпиадник‑рекордсмен». Он показывает направление эволюции ИИ:

от генераторов ответов — к агентам‑мыслителям,
от «правильно/неправильно» — к глубокой оценке качества рассуждения,
от внешней проверки человеком — к встроенному механизму самокритики и доработки.

По сути, команда DeepSeek учит модель одному из ключевых человеческих навыков:
умению сказать себе «я, похоже, ошибся, давай попробуем иначе» — и действительно изменить ход мысли.

И если такой подход можно масштабировать с олимпиадной математики на другие области — науку, инженерию, программирование, — мы приближаемся к классу ИИ‑систем, которым доверяют не потому, что «они магически всё знают», а потому, что они умеют работать с собственной ошибочностью не хуже хорошего исследователя

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/