11,4 тыс подписчиков

🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз

2 декабря 20252 дек 2025

936

1 мин

🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro. Главное: • DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде • Новая флагманская модель совмещает рассуждения + агентность • Архитектура MoE из семейства V3.1 Terminus, контекст 128k • Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста Что делает DSA Обычное внимание - O(T²), что больно при 128k токенов. DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов. Как работает: 1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена 2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним Как обучали Начали с чекпоинта V3.1 (128k) и сделали 2-ступенчатое дообучение: • Stage 1 - плотное внимание, замороженная модель, обучается только DSA • Stage 2 - постепенный

🐋 DeepSeek выкатили не «ещё одну модель», а полноценную топ-систему уровня IMO/IOI/ICPC - при этом обучение и генерация стоят в десятки раз дешевле, чем у GPT-5 и Gemini 3 Pro.

Главное:

• DeepSeek-V3.2-Speciale обгоняет Gemini 3.0 Pro в математике и коде

• Новая флагманская модель совмещает рассуждения + агентность

• Архитектура MoE из семейства V3.1 Terminus, контекст 128k

• Главное нововведение — DeepSeek Sparse Attention (DSA), сделанный ради дешёвого длинного контекста

Что делает DSA

Обычное внимание - O(T²), что больно при 128k токенов.

DSA снижает стоимость до O(T·U), где U - только небольшое число релевантных токенов.

Как работает:

1) Lightning Indexer - лёгкая сеть оценивает важность каждого прошлого токена

2) Fine-grained top-k - модель выбирает только самые полезные токены и считает внимание по ним

Как обучали