233 подписчика

Xiaomi разогнала триллионную модель до 1000 токенов/с — и, что важнее, сделала это без экзотического кремния

8 июня8 июн

7 мин

Xiaomi вместе с командой TileRT выкатила MiMo-V2.5-Pro-UltraSpeed — режим флагманской MoE-модели на триллион параметров, который на стандартном узле из восьми GPU декодирует со скоростью около 1000 токенов в секунду, а в демонстрациях разгоняется примерно до 1200. По их же прайс-листу это около 10× к скорости базовой MiMo-V2.5-Pro при 3× цены. Но «1000» — не самая интересная цифра в этой истории. Интересно другое: они получили её не на вафельных процессорах Cerebras и не на SRAM-чипах Groq, а на обычных серверных видеокартах — чистым ко-дизайном модели и инференс-системы. Давайте разберём, как это устроено под капотом, и где пресс-релиз честно перегибает палку. Если отбросить пафос, набор фактов такой: 🧠 Это режим уже существующей флагманской модели, а не новая архитектура. Триллион параметров — это MoE (mixture-of-experts), то есть на каждый токен реально работает лишь небольшая доля весов. 🔌 Доступ — только через API (mimo-v2.5-pro-ultraspeed), причём поддерживаются сразу два прото

Оглавление

Что именно выпустили
Почему 1000 t/s — это в принципе трудно
Как это сделано: три приёма

Что именно выпустили

Если отбросить пафос, набор фактов такой:

🧠 Это режим уже существующей флагманской модели, а не новая архитектура. Триллион параметров — это MoE (mixture-of-experts), то есть на каждый токен реально работает лишь небольшая доля весов.

🔌 Доступ — только через API (mimo-v2.5-pro-ultraspeed), причём поддерживаются сразу два протокола — OpenAI и Anthropic, генерация до 131072 токенов, есть reasoning, tool-calling и стриминг. Token Plan не работает.

📅 Окно ограниченное: с 9 по 23 июня 2026 (до 23:59 по Пекину), доступ выдают по заявкам с ежедневным одобрением и приоритетом для компаний и профессиональных разработчиков. То есть открывается буквально завтра.

🔓 Веса выложены: на HuggingFace лежит чекпойнт MiMo-V2.5-Pro-FP4-DFlash с FP4-квантованными весами и параметрами DFlash — это редкий случай, когда «секретный соус» скорости отдают наружу.

💸 По экономике: базовая модель в их API — это ~50–100 токенов/с и $0.87 за миллион выходных токенов, UltraSpeed — ~500–1000 токенов/с и $2.61 за миллион. То есть ровно ×3 по цене и ×10 по скорости.

Маленькая поправка к новости сразу: UltraSpeed — это не «самый дешёвый» способ гонять MiMo. За токен он втрое дороже базовой версии. «Экономичным» он становится только если нормировать на латентность (быстрее закрыл задачу — меньше держишь дорогой GPU) или сравнивать с фронтир-моделями. Дешевле всех — по-прежнему обычная MiMo-V2.5-Pro, просто медленная.

Почему 1000 t/s — это в принципе трудно

Вот цифра, от которой стоит плясать: 1000 токенов/с — это бюджет ~1 миллисекунда на токен. За эту миллисекунду MoE-модель должна прочитать из HBM веса всех активных на этом шаге экспертов, прогнать их и выдать следующий токен. Декодинг здесь упирается не в вычисления, а в пропускную способность памяти — ты буквально перекачиваешь гигабайты весов на каждый токен. Поэтому весь бой идёт за две вещи: меньше байт читать и меньше накладных расходов терять. Ровно по этим двум фронтам Xiaomi и ударила.

Как это сделано: три приёма

⚙️ FP4 только для экспертов. Четырёхбитное квантование применили лишь к MoE-экспертам, всё остальное оставили в исходной точности, а само квантование сделали через QAT (обучение с учётом квантования) — почти без потери качества. Логика прямая: эксперты — это основная масса весов и главный потребитель полосы памяти. Урезав их с FP8 до FP4, ты вдвое сокращаешь объём чтения — и для bandwidth-bound декодинга это почти линейный прирост скорости. Важная техническая деталь, которую в новости опустили: FP4 в железе умеет считать только Blackwell. Так что «обычные 8 GPU» — это почти наверняка узел на B200, тот же класс, на котором NVIDIA ещё в мае 2025-го выжала 1000+ токенов/с на пользователя на 400-миллиардной Llama 4 Maverick на одном DGX B200. Отсюда и масштаб новизны Xiaomi — об этом ниже.

⚙️ DFlash — спекулятивный декодинг. Идея спекулятивного декодинга проста: дешёвая «черновая» модель быстро предлагает несколько следующих токенов, а большая модель проверяет их все за один проход и оставляет угаданный префикс. Если угадано хорошо — ты получил несколько токенов по цене одного шага. DFlash заменяет обычный авторегрессионный черновик блочным маскированным параллельным предсказанием, черновая модель использует SWA (скользящее окно внимания), чтобы держать стоимость предсказания константной, а высокий процент принятия добивают оптимизатором Muon и self-distillation. В анонсе называют до восьми токенов за проверку — то есть в идеале один тяжёлый forward даёт сразу блок токенов.

⚙️ TileRT — персистентное мегаядро. Самое недооценённое. Обычно инференс — это сотни отдельных запусков ядер на токен, и каждый запуск стоит микросекунды. При бюджете в 1 мс на токен эти микросекунды складываются и сжирают всё. TileRT отказывается от запуска на каждую операцию: вычислительный конвейер постоянно «живёт» на GPU, с префетчем по всему пути, а коммуникации, перекачку данных и тензорные вычисления раскидывают по разным варпам. Это не магия Xiaomi, а передовая, но известная техника — персистентные ядра убирают накладные расходы на перезапуск, держа резидентные блоки на всех SM и перекрывая загрузки, тензорные операции и эпилоги; особенно сильно это играет в глубоких конвейерах, где стоимость запусков иначе доминирует. Заслуга команды в том, что они довели это до 1T-масштаба и срастили с FP4 и DFlash в единый компилируемый пайплайн.

Контекст: не первые на 1000 t/s, но первые на таком масштабе

Тут важно не дать новости себя обмануть словом «впервые». Скорость в 1000+ токенов/с давно показывают Cerebras (wafer-scale) и Groq (свои LPU на SRAM) — но на кастомном железе. NVIDIA, как сказано выше, взяла барьер на 400B-модели. Реальное достижение Xiaomi — это триллионная модель (≈2.5× от Maverick) на такой скорости, и без спецкремния. Вот это «впервые» — про масштаб модели на стоковых GPU, и именно так его стоит читать. Это честно круто.

Где маркетинг перегибает

А теперь часть, ради которой я и пишу. Скорость реальная, но в новости её подают под соусом «стирает грань между запросом и ответом, миллисекундный контур принятия решений». Давайте по-инженерному.

📏 1000 t/s — это пропускная способность декодинга, а не сквозная задержка. Чтобы было «как продолжение мысли», нужна ещё и низкая TTFT (время до первого токена). У базовой версии TTFT доходила до ~3.86 секунды — и пока никто не показал, что UltraSpeed её радикально режет. Плюс это reasoning-модель: она «думает» токенами до ответа, так что сложный запрос даже на 1000 t/s потратит реальные секунды на скрытую цепочку рассуждений.

📉 Про «высокочастотный трейдинг» — нет. Я в этой теме сижу плотно, и скажу прямо: настоящий HFT живёт в микро- и наносекундах, на FPGA/ASIC, в колокации у биржи. LLM, выдающая токены по ~1 мс штука, плюс TTFT, плюс reasoning — это на несколько порядков медленнее, чем нужно в горячем пути HFT. Никто не ставит триллионный авторегрессионный трансформер между тиком цены и ордером. Что это реально открывает — это event-driven реакция на новость за десятки–сотни миллисекунд. Быстро для LLM, но это другой, более медленный спорт. Показательно, что даже сам Xiaomi в сценарии антифрода аккуратно пишет «сотни миллисекунд», а не «миллисекунды».

🩺 «Хирургические ассистенты с миллисекундной задержкой» — это уже совсем фантазия пресс-релиза. Реальные real-time контуры в медицине детерминированы и сертифицированы, и 1T-LLM там в петле управления не крутится.

✅ Но вот за что скорость действительно стоит хвалить: пропускная способность — это валюта для test-time compute. На 10× быстрее декодинге ты можешь позволить более длинную цепочку рассуждений, или best-of-n / self-consistency / отдельный верификатор — и всё ещё ощущать интерактивность. Это честный рычаг качества, на который и намекает фраза про «несколько параллельных цепочек за секунду». Плюс UX-демки приятные: генерация кода быстрее, чем ты читаешь, и собранная в один проход 3D-гонка на Three.js.

Вывод и прогноз

Главная значимость новости — не в красивом числе, а в доказательстве: связка FP4-квантование + спекулятивный декодинг + персистентные мегаядра способна затащить модели триллионного масштаба в интерактивную задержку на стоковых видеокартах. То есть «быстрая огромная модель» перестаёт требовать Cerebras или Groq — а это уже стратегический сдвиг, и для рынка инференса он важнее любого хайпа про «продолжение мысли».

Мой прогноз: этот стек (FP4 + spec-decoding + megakernels на Blackwell) в ближайший год станет дефолтом, и остальные лабы быстро подтянутся; сама Xiaomi уже обещает UltraSpeed и для базовой MiMo-V2.5. А то, что чекпойнт FP4+DFlash выложили открыто, — отдельный жирный плюс: комьюнити сможет реально воспроизвести и поковырять рецепт, а не верить на слово.

Моя личная позиция простая. Инженерии — аплодисменты, она первоклассная. Формулировке про «миллисекундный контур принятия решений» — закатывание глаз. Прежде чем верить в «real-time», дождитесь живых замеров не только декодинга, но и TTFT в API. А для моей делянки — алготрейдинга — честный сценарий тут не HFT, а более быстрый event-driven reasoning. И это, кстати, тоже неплохо.

Источники

📰 Оригинальный анонс Xiaomi MiMo × TileRT: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

📖 Разбор в формате «читать полностью»: https://telegra.ph/1000-tokenov-v-sekundu-kak-Xiaomi-i-TileRT-prevratili-trillionnuyu-model-v-prodolzhenie-vashej-mysli-06-08

⚙️ Техническая карточка модели (FP4/DFlash/TileRT, прайс, сценарии): https://platform.xiaomimimo.com/docs/en-US/model-intro/mimo-v2.5-pro-ultraspeed

🔬 Технический блог TileRT: https://tilert.ai/blog/breaking-1000-tps.html

🔓 Открытые веса (FP4 + DFlash) на HuggingFace: https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash

🟢 Рекорд NVIDIA — 1000+ TPS на Llama 4 Maverick (400B) на DGX B200: https://developer.nvidia.com/blog/blackwell-breaks-the-1000-tps-user-barrier-with-metas-llama-4-maverick/

📊 Замеры базовой MiMo-V2.5-Pro (скорость, TTFT, цена): https://artificialanalysis.ai/models/mimo-v2-5-pro