После относительно тихого периода DeepSeek вернулась громко и агрессивно. Новый релиз DeepSeekMath‑V2 стал не просто очередной моделью, а первым в мире открытым ИИ уровня золотой медали Международной математической олимпиады (IMO). И по ряду показателей он напрямую обходит флагманский олимпийский ИИ Google — Gemini Deep Think — и подбирается к внутренним системам OpenAI.
Это не только технологический прорыв, но и важный политический жест в споре «закрытое против открытого ИИ».
Открытый «олимпиадник»: где и как DeepSeek победил
DeepSeekMath‑V2 построен на базе DeepSeek V3.2 Exp Base и сразу тестировался на самых жёстких математических рубежах:
- IMO 2025 — решены 5 из 6 задач, что соответствует уровню золотой медали;
- CMO 2024 (Китайская матолимпиада) — также золотой уровень;
- Putnam 2024 — 118 баллов из 120, выше, чем лучший человеческий результат (около 90 баллов).
На бенчмарке IMO‑ProofBench:
- на ProofBench‑Basic DeepSeekMath‑V2 уверенно превосходит Google Gemini Deep Think;
- на ProofBench‑Advanced вплотную догоняет его, оставаясь конкурентоспособным на самых сложных теоремах.
Главное — модель полностью открыта: доступны веса, код, статья. В мире, где топовые системы OpenAI и Google остаются «чёрными ящиками», это серьёзное усиление позиций открытого ИИ.
Почему «просто правильный ответ» больше не работает
До сих пор стандартная стратегия обучения ИИ математике была проста:
- дал задачу;
- сравнил ответ с эталоном;
- совпало — награда, нет — штраф.
На конкурсах уровня AIME или HMMT это работает: итог — число или короткий ответ. Но на уровне IMO и Putnam центр тяжести смещён: важен не результат, а строгое доказательство.
Старые модели легко «читерили»:
- выдавали формально правильный ответ,
- при этом логика пути была рваной, с пропусками, иногда просто выдуманной.
На олимпиаде такой «ответ без доказательства» оценивается нулём. Значит, если мы хотим серьёзного ИИ‑математика, нужно учить его доказывать и проверять себя, а не просто угадывать числа.
Три роли в одном мозге: генератор, судья и аудитор
DeepSeekMath‑V2 опирается на изящную архитектуру «самоспора» — в модели живут сразу три условных персонажа.
- «Решатель задач» (Generator)
Отвечает за то, чтобы:
- построить решение и полное доказательство;
- сопроводить его самооценкой: где он уверен, а где — нет.
Наградой здесь служит не столько совпадение с ответом, сколько:
- честное указание на слабые места;
- стремление исправить найденные ошибки до финального вывода.
Моделью управляют так, чтобы честно признать сомнение было выгоднее, чем «нагло объявить себя правой».
- «Жёсткий экзаменатор» (Verifier)
Специализированный верификатор‑LLM, который:
- читает доказательство целиком;
- оценивает его по шкале, похожей на олимпиадную:
- 1 — строгое, полное доказательство;
- 0.5 — общая идея верна, но есть недочёты или недосказанности;
- 0 — есть фатальная логическая ошибка или пробел.
Его задача — не смотреть на финальный ответ, а оценивать качество рассуждения как эксперт‑математик.
- «Аудитор судьи» (Meta‑Verifier)
Чтобы сам «экзаменатор» не превращался в новый источник ошибок, вводится третий уровень:
- meta‑верификатор проверяет, настоящие ли ошибки нашёл Verifier;
- соответствует ли их тяжесть выставленному баллу;
- не «придумал» ли Verifier проблему там, где доказательство корректно.
За счёт такого «надзора над надзирателем» качество оценок верификатора поднимают с ~0.85 до ~0.96 по внутренним метрикам — уже почти на уровне сильного человеческого эксперта.
В этой тройке DeepSeek выстраивает замкнутый цикл самосовершенствования: решатель учится доказывать и сомневаться, экзаменатор — строго проверять, а аудитор — держать экзаменатора в тонусе.
Машина, которая спорит сама с собой — и выигрывает
Дальше включается обучение с подкреплением:
- генератор пишет доказательства;
- верификатор ставит баллы и указывает ошибки;
- meta‑верификатор следит за качеством этой критики;
- по итогам всей цепочки генератор корректирует свои стратегии мышления.
По мере роста навыков:
- генератор производит всё более сложные и изощрённые доказательства;
- они выявляют тонкие слабости в работе верификатора;
- эти слабости становятся новым ценным обучающим материалом для самого верификатора.
В финальных итерациях команда смогла полностью заменить ручную разметку автоматизированной связкой «генератор + верификатор + мета‑верификатор» — и последующие проверки показали высокое совпадение с решениями людей‑экспертов.
«Подумай ещё раз»: сила многократного пересмотра
Особый интерес вызывают эксперименты по «многократному мышлению»:
- если дать модели ровно один шанс (one‑shot), DeepSeekMath‑V2 уже превосходит GPT‑5‑Thinking‑High и Gemini 2.5‑Pro по всем разделам тестового набора CNML (алгебра, геометрия, теория чисел, комбинаторика, неравенства), местами — в разы;
- но когда системе разрешают несколько циклoв «реши → проверь себя → перереши», качество скачкообразно растёт.
На IMO‑шортлисте:
- после одной попытки средний балл был ~0.15;
- после 8 итераций самопроверки и перегенерации — уже ~0.27;
- если среди 32 попыток модель сама выбирает лучшую (Best@32), оценка взлетает до ~0.42.
Это не просто «подбор», а признак самоосознанности модели: она не только улучшает решения, но и довольно надёжно знает, какое из них стоит считать лучшим.
«Жёсткий режим вычислений» и почти идеальный Putnam
Чтобы добиться исторического результата на Putnam и олимпиадах, DeepSeek применяет «брутальный», но показательный режим:
- На каждую задачу генерируется 64 варианта доказательства.
- Каждый вариант проходит 64 независимых проверки со стороны верификатора.
- К полным решениям засчитываются только те, что проходят все проверки без замечаний.
Эта комбинация глубокой генерации и жёсткой фильтрации позволила:
- решить 5 из 6 задач IMO 2025;
- показать золотой уровень на CMO 2024;
- набрать почти максимум на Putnam 2024.
При этом важно, что:
- для задач, которые модель не решила полностью, она в большинстве случаев корректно локализует место провала в своём рассуждении;
- для решённых задач цепочка проверок почти не находит логических дыр.
Это сильный аргумент в пользу того, что LLM‑верификаторы действительно могут достигать уровня надёжности, достаточного для работы с нетривиальными доказательствами.
Почему это удар не только по Google, но и по закрытым моделям в целом
Конкуренция с Gemini Deep Think — лишь часть истории. Более широкий эффект DeepSeekMath‑V2 в том, что:
- путь к ИИ‑рассуждению с самопроверкой не монополизирован закрытыми лабораториями;
- сообщество получает не просто «готовую чёрную коробку», а:
- открытые веса,
- описанную методику обучения генератора, верификатора и мета‑верификатора,
- исходники, пригодные для воспроизведения и развития.
На этом фоне фраза «GPT‑5 в опасности» в заголовках — не буквальный «убийство GPT‑5», а указание на другое: монополия нескольких корпораций на самые продвинутые способности ИИ становится менее устойчивой. Там, где раньше «только закрытые могли», теперь демонстративно добирается и открытый стек — пусть пока в узкой, но очень показательной области.
Шаг к ИИ, который умеет сомневаться
DeepSeekMath‑V2 важен не только как «олимпиадник‑рекордсмен». Он показывает направление эволюции ИИ:
- от генераторов ответов — к агентам‑мыслителям,
- от «правильно/неправильно» — к глубокой оценке качества рассуждения,
- от внешней проверки человеком — к встроенному механизму самокритики и доработки.
По сути, команда DeepSeek учит модель одному из ключевых человеческих навыков:
умению сказать себе «я, похоже, ошибся, давай попробуем иначе» — и действительно изменить ход мысли.
И если такой подход можно масштабировать с олимпиадной математики на другие области — науку, инженерию, программирование, — мы приближаемся к классу ИИ‑систем, которым доверяют не потому, что «они магически всё знают», а потому, что они умеют работать с собственной ошибочностью не хуже хорошего исследователя
Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/