217 подписчиков

DeepSeek-V3.2: как открытая модель впервые приблизилась к Олимпиаде разума

2 декабря 20252 дек 2025

3 мин

Когда в ИИ-сообществе говорят о «прорыве», чаще всего подразумевают закрытые корпорации — те, у кого есть бюджет на тысячи A100 и пайплайны, доступный лишь гигантам. Но DeepSeek-AI снова нарушает правило: их DeepSeek-V3.2 — пример того, как открытая разработка превращается в настоящую технологическую гонку, где open-source догоняет — и местами обгоняет — элитные закрытые модели. Но в этот раз всё иначе. DeepSeek-V3.2 не просто улучшает предыдущую версию — она впервые демонстрирует золотые достижения уровня IMO, IOI и ICPC, и всё это с открытым стеком и вполне вменяемой инфраструктурой обучения. И причина успеха — не магия, а инженерия. Причём тонкая. 🔥 DSA: внимание, которое наконец-то не удушает GPU Главная инновация — DeepSeek Sparse Attention (DSA).

Проблема всех современных моделей проста: сложность внимания O(L²) рано или поздно убивает масштабируемость. Каждые дополнительные 32K контекста превращаются в тысячи долларов на вычисления, особенно при RL-тренировке. DSA делает три в

Оглавление

Но в этот раз всё иначе.
🔥 DSA: внимание, которое наконец-то не удушает GPU
🧠 Причина №2: глубокий RL с бюджетом 10% от pre-train

Но в этот раз всё иначе.

DeepSeek-V3.2 не просто улучшает предыдущую версию — она впервые демонстрирует золотые достижения уровня IMO, IOI и ICPC, и всё это с открытым стеком и вполне вменяемой инфраструктурой обучения.

И причина успеха — не магия, а инженерия. Причём тонкая.

🔥 DSA: внимание, которое наконец-то не удушает GPU

Главная инновация — DeepSeek Sparse Attention (DSA).
Проблема всех современных моделей проста: сложность внимания O(L²) рано или поздно убивает масштабируемость. Каждые дополнительные 32K контекста превращаются в тысячи долларов на вычисления, особенно при RL-тренировке.

DSA делает три вещи:

⚡ Lightning Indexer — оценивает релевантность токенов с мизерными затратами (FP8, несколько голов вместо десятков).
🎯 Fine-grained top-k selection — выбирает только наиболее важные KV-записи, превращая квадратичную сложность в O(L·k).
🔧 Интеграция через MLA/MQA — подход, где каждый KV-вектор переиспользуется всеми головами, минимизируя копирование и пропускную способность.

Важно: DSA — не просто «разреженность». Его дообучили так, что он копирует распределение обычного внимания через KL-регуляцию. Это не эвристика — это инженерия уровня production.

📌 Итог: даже при 128K контексте DeepSeek-V3.2 становится заметно дешевле и быстрее DeepSeek-V3.1-Terminus.

🧠 Причина №2: глубокий RL с бюджетом 10% от pre-train

Большинство open-source проектов тренируют RL в стиле «для галочки» — несколько тысяч шагов, минимальная генерация примеров.

DeepSeek сделали наоборот:

🧩 специалисты (mathematics, programming, reasoning, agent search)
🌀 дистилляция в основной чекпойнт
🏋️ огромный RL-бюджет, уже превышающий 10% pre-training вычислений

Это беспрецедентно для открытой модели.

Главное отличие — стабильность обучения. Команда добавила:

🔒 unbiased KL-оценку (исправление ошибки K3 Schulman’а)
🚫 off-policy masking (выбрасывание вредных отрицательных семплов)
📌 keep-routing для MoE (фиксирование маршрутов экспертов)
🎯 keep-sampling-mask (совпадение action-spaces при top-p условии)

Если раньше RL-обучение больших LLM было смесью магии и удачи, здесь оно превратилось в инженерный «рецепт».

🔧 Причина №3: фабрика синтетических агентных задач

Вот где DeepSeek делает то, чего почти никто не пробовал системно.

Они создали первую полноценную промышленную генерацию RL-окружений, включающую:

🕸 1 827 синтетических сред
🛠 85 000 сложных задач для агентов
🌐 мультиязычные поисковые задачи
👨‍💻 десятки тысяч исполняемых coding-окружений (Python, Java, C++, JS)
🧭 автогенерируемые задачи типа «спланируй путешествие по городам», «проанализируй базу данных», «определи оптимальную стратегию»

Это не игрушка. Это пайплайн уровня «генерируем собственный Kaggle».

И результаты говорят сами за себя:

DeepSeek-V3.2 превосходит открытые модели на Terminal Bench, SWE Verified, Tool-Decathlon, MCP-Universe.
Впервые открытая модель серьёзно приближается к Gemini-3-Pro и GPT-5-High.

🏅 Специальная версия Speciale: выход на уровень золотых медалей IMO/IOI

DeepSeek-V3.2-Speciale — это экспериментальная версия, где:

сняты ограничения по длине рассуждения
добавлены техники DeepSeekMath-V2
увеличена RL-нагрузка

И что получилось:

🥇 IMO 2025 — уровень "gold"
🥇 IOI 2025 — уровень "gold"
🥇 ICPC World Finals — 2 место (в виртуальном зачёте)
🧠 GPQA — почти как Gemini-3-Pro

Это впервые, когда open-source модель показывает такой класс.

🧩 Что мне кажется главным в этой истории

DeepSeek-V3.2 — это не про очередной SOTA Score. Это про три важнейших тенденции, которые теперь невозможно игнорировать:

🌐 1. Открытые модели начали создавать собственные экосистемы обучения

Не просто fine-tuning, а полноценные RL-миры с кодом, поиском, средами и валидацией.

⚙️ 2. Учебная инфраструктура становится важнее архитектуры

DSA — прекрасная оптимизация, но настоящий рывок дала именно инфраструктура RL и синтетический пайплайн.
Это похоже на эпоху ImageNet, когда не архитектура, а датасет менял правила игры.

🚀 3. Открытый стек впервые стал реальным конкурентом закрытым

Если раньше путь был:
Open-source проигрывал Proprietary по всем важным метрикам,
то теперь картина меняется:

reasoning — паритет
code-agent — глубокий разрыв в пользу DeepSeek
search-agent — меньше ограничений, чем у аналогов
tool-use — впервые сопоставимо

Gemini-3 и GPT-5-High всё ещё впереди, но дистанция стала «спортивной», а не «космической».

📎 Источники

🔗 Полный PDF отчёта DeepSeek-V3.2:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf