Найти в Дзене
Social Mebia Systems

DeepSeekMath V2: как открытый ИИ берёт «золото» на олимпиадах и бросает вызов Google и GPT 5

После относительно тихого периода DeepSeek вернулась громко и агрессивно. Новый релиз DeepSeekMath‑V2 стал не просто очередной моделью, а первым в мире открытым ИИ уровня золотой медали Международной математической олимпиады (IMO). И по ряду показателей он напрямую обходит флагманский олимпийский ИИ Google — Gemini Deep Think — и подбирается к внутренним системам OpenAI. Это не только технологический прорыв, но и важный политический жест в споре «закрытое против открытого ИИ». Открытый «олимпиадник»: где и как DeepSeek победил DeepSeekMath‑V2 построен на базе DeepSeek V3.2 Exp Base и сразу тестировался на самых жёстких математических рубежах: На бенчмарке IMO‑ProofBench: Главное — модель полностью открыта: доступны веса, код, статья. В мире, где топовые системы OpenAI и Google остаются «чёрными ящиками», это серьёзное усиление позиций открытого ИИ. Почему «просто правильный ответ» больше не работает До сих пор стандартная стратегия обучения ИИ математике была проста: На конкурсах уровн

После относительно тихого периода DeepSeek вернулась громко и агрессивно. Новый релиз DeepSeekMath‑V2 стал не просто очередной моделью, а первым в мире открытым ИИ уровня золотой медали Международной математической олимпиады (IMO). И по ряду показателей он напрямую обходит флагманский олимпийский ИИ Google — Gemini Deep Think — и подбирается к внутренним системам OpenAI.

Это не только технологический прорыв, но и важный политический жест в споре «закрытое против открытого ИИ».

Открытый «олимпиадник»: где и как DeepSeek победил

DeepSeekMath‑V2 построен на базе DeepSeek V3.2 Exp Base и сразу тестировался на самых жёстких математических рубежах:

  • IMO 2025 — решены 5 из 6 задач, что соответствует уровню золотой медали;
  • CMO 2024 (Китайская матолимпиада) — также золотой уровень;
  • Putnam 2024 — 118 баллов из 120, выше, чем лучший человеческий результат (около 90 баллов).

На бенчмарке IMO‑ProofBench:

  • на ProofBench‑Basic DeepSeekMath‑V2 уверенно превосходит Google Gemini Deep Think;
  • на ProofBench‑Advanced вплотную догоняет его, оставаясь конкурентоспособным на самых сложных теоремах.

Главное — модель полностью открыта: доступны веса, код, статья. В мире, где топовые системы OpenAI и Google остаются «чёрными ящиками», это серьёзное усиление позиций открытого ИИ.

Почему «просто правильный ответ» больше не работает

До сих пор стандартная стратегия обучения ИИ математике была проста:

  • дал задачу;
  • сравнил ответ с эталоном;
  • совпало — награда, нет — штраф.

На конкурсах уровня AIME или HMMT это работает: итог — число или короткий ответ. Но на уровне IMO и Putnam центр тяжести смещён: важен не результат, а строгое доказательство.

Старые модели легко «читерили»:

  • выдавали формально правильный ответ,
  • при этом логика пути была рваной, с пропусками, иногда просто выдуманной.

На олимпиаде такой «ответ без доказательства» оценивается нулём. Значит, если мы хотим серьёзного ИИ‑математика, нужно учить его доказывать и проверять себя, а не просто угадывать числа.

Три роли в одном мозге: генератор, судья и аудитор

DeepSeekMath‑V2 опирается на изящную архитектуру «самоспора» — в модели живут сразу три условных персонажа.

  1. «Решатель задач» (Generator)
    Отвечает за то, чтобы:
  • построить решение и полное доказательство;
  • сопроводить его самооценкой: где он уверен, а где — нет.

Наградой здесь служит не столько совпадение с ответом, сколько:

  • честное указание на слабые места;
  • стремление исправить найденные ошибки до финального вывода.

Моделью управляют так, чтобы честно признать сомнение было выгоднее, чем «нагло объявить себя правой».

  1. «Жёсткий экзаменатор» (Verifier)
    Специализированный верификатор‑LLM, который:
  • читает доказательство целиком;
  • оценивает его по шкале, похожей на олимпиадную:
  • 1 — строгое, полное доказательство;
  • 0.5 — общая идея верна, но есть недочёты или недосказанности;
  • 0 — есть фатальная логическая ошибка или пробел.

Его задача — не смотреть на финальный ответ, а оценивать качество рассуждения как эксперт‑математик.

  1. «Аудитор судьи» (Meta‑Verifier)
    Чтобы сам «экзаменатор» не превращался в новый источник ошибок, вводится третий уровень:
  • meta‑верификатор проверяет, настоящие ли ошибки нашёл Verifier;
  • соответствует ли их тяжесть выставленному баллу;
  • не «придумал» ли Verifier проблему там, где доказательство корректно.

За счёт такого «надзора над надзирателем» качество оценок верификатора поднимают с ~0.85 до ~0.96 по внутренним метрикам — уже почти на уровне сильного человеческого эксперта.

В этой тройке DeepSeek выстраивает замкнутый цикл самосовершенствования: решатель учится доказывать и сомневаться, экзаменатор — строго проверять, а аудитор — держать экзаменатора в тонусе.

Машина, которая спорит сама с собой — и выигрывает

Дальше включается обучение с подкреплением:

  • генератор пишет доказательства;
  • верификатор ставит баллы и указывает ошибки;
  • meta‑верификатор следит за качеством этой критики;
  • по итогам всей цепочки генератор корректирует свои стратегии мышления.

По мере роста навыков:

  • генератор производит всё более сложные и изощрённые доказательства;
  • они выявляют тонкие слабости в работе верификатора;
  • эти слабости становятся новым ценным обучающим материалом для самого верификатора.

В финальных итерациях команда смогла полностью заменить ручную разметку автоматизированной связкой «генератор + верификатор + мета‑верификатор» — и последующие проверки показали высокое совпадение с решениями людей‑экспертов.

«Подумай ещё раз»: сила многократного пересмотра

Особый интерес вызывают эксперименты по «многократному мышлению»:

  • если дать модели ровно один шанс (one‑shot), DeepSeekMath‑V2 уже превосходит GPT‑5‑Thinking‑High и Gemini 2.5‑Pro по всем разделам тестового набора CNML (алгебра, геометрия, теория чисел, комбинаторика, неравенства), местами — в разы;
  • но когда системе разрешают несколько циклoв «реши → проверь себя → перереши», качество скачкообразно растёт.

На IMO‑шортлисте:

  • после одной попытки средний балл был ~0.15;
  • после 8 итераций самопроверки и перегенерации — уже ~0.27;
  • если среди 32 попыток модель сама выбирает лучшую (Best@32), оценка взлетает до ~0.42.

Это не просто «подбор», а признак самоосознанности модели: она не только улучшает решения, но и довольно надёжно знает, какое из них стоит считать лучшим.

«Жёсткий режим вычислений» и почти идеальный Putnam

Чтобы добиться исторического результата на Putnam и олимпиадах, DeepSeek применяет «брутальный», но показательный режим:

  1. На каждую задачу генерируется 64 варианта доказательства.
  2. Каждый вариант проходит 64 независимых проверки со стороны верификатора.
  3. К полным решениям засчитываются только те, что проходят все проверки без замечаний.

Эта комбинация глубокой генерации и жёсткой фильтрации позволила:

  • решить 5 из 6 задач IMO 2025;
  • показать золотой уровень на CMO 2024;
  • набрать почти максимум на Putnam 2024.

При этом важно, что:

  • для задач, которые модель не решила полностью, она в большинстве случаев корректно локализует место провала в своём рассуждении;
  • для решённых задач цепочка проверок почти не находит логических дыр.

Это сильный аргумент в пользу того, что LLM‑верификаторы действительно могут достигать уровня надёжности, достаточного для работы с нетривиальными доказательствами.

Почему это удар не только по Google, но и по закрытым моделям в целом

Конкуренция с Gemini Deep Think — лишь часть истории. Более широкий эффект DeepSeekMath‑V2 в том, что:

  • путь к ИИ‑рассуждению с самопроверкой не монополизирован закрытыми лабораториями;
  • сообщество получает не просто «готовую чёрную коробку», а:
  • открытые веса,
  • описанную методику обучения генератора, верификатора и мета‑верификатора,
  • исходники, пригодные для воспроизведения и развития.

На этом фоне фраза «GPT‑5 в опасности» в заголовках — не буквальный «убийство GPT‑5», а указание на другое: монополия нескольких корпораций на самые продвинутые способности ИИ становится менее устойчивой. Там, где раньше «только закрытые могли», теперь демонстративно добирается и открытый стек — пусть пока в узкой, но очень показательной области.

Шаг к ИИ, который умеет сомневаться

DeepSeekMath‑V2 важен не только как «олимпиадник‑рекордсмен». Он показывает направление эволюции ИИ:

  • от генераторов ответов — к агентам‑мыслителям,
  • от «правильно/неправильно» — к глубокой оценке качества рассуждения,
  • от внешней проверки человеком — к встроенному механизму самокритики и доработки.

По сути, команда DeepSeek учит модель одному из ключевых человеческих навыков:
умению сказать себе «я, похоже, ошибся, давай попробуем иначе» — и действительно изменить ход мысли.

И если такой подход можно масштабировать с олимпиадной математики на другие области — науку, инженерию, программирование, — мы приближаемся к классу ИИ‑систем, которым доверяют не потому, что «они магически всё знают», а потому, что они умеют работать с собственной ошибочностью не хуже хорошего исследователя

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/