10,6 тыс подписчиков

⚡️ Xiaomi MiMo-V2-Flash: MoE с 309 млрд

16 декабря16 дек

2 мин

общих и 15 активных параметров. Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5. Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов. 🟡Модель создавалась с фокусом на эффективность инференса. MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction . В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно. Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания. Измерения показали, что в этом есть смысл: при использовании 3-слойного MT

⚡️ Xiaomi MiMo-V2-Flash: MoE с 309 млрд. общих и 15 активных параметров.

Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5.

Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов.

🟡Модель создавалась с фокусом на эффективность инференса.

MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction .

В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно.

Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания.

Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша.

🟡На пост-трейне использовали парадигму Multi-Teacher Online Policy Distillation.

Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей.

Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL.

🟡Боевые метрики на бенчмарках выглядят красиво.

На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High.

В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач.

В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений.

Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3.

В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах.

🔜 Есть бесплатный доступ по API до конца года (потом - $0,1 за млн. входных токенов и $0,3 за млн. выходных).

📌Лицензирование: MIT License.

🟡Статья

🟡Техотчет

🟡Demo

🟡Модель

@machinelearning

#AI #ML #LLM #MiMOv2Flash #Xiaomi

Гаджеты и электроника

5,73 млн интересуются