228 подписчиков

Xiaomi уронила цены на MiMo-V2.5 на 99% — но настоящая новость не в этом

27 мая27 мая

8 мин

С 27 мая Xiaomi сделала свою флагманскую агентскую модель MiMo-V2.5 почти бесплатной для API-доступа: цены срезаны «до 99%», квоты в токен-планах раздуты в 5–8 раз, а уже потраченные кредиты у действующих подписчиков просто обнулили — как будто и не тратили. Заголовок звучит как маркетинговый фейерверк, и отчасти так и есть. Но если копнуть глубже, то самое интересное здесь не цифра «–99%», а то, за счёт чего эту цифру вообще удалось нарисовать. Давай разбираться — и по дороге я расскажу, где Xiaomi слегка лукавит. Если без воды, то изменения с 0:00 27 мая (по пекинскому времени, глобально и одновременно) выглядят так: 💸 Перманентное снижение цены API на всю серию MiMo-V2.5 — «максимум до 99%» относительно старого прайса, причём тарификация больше не зависит от длины входного контекста. 📦 Токен-планы прокачали: за те же деньги — в 5–8 раз больше доступных токенов, плюс упрощённые и более прозрачные правила биллинга. 🎁 Всем активным подписчикам токен-планов полностью сбросили израсхо

Оглавление

Что именно произошло
Почему это вообще стало возможно: немного инженерии
Что вообще такое MiMo-V2.5 и почему «уровень Claude Opus» — это не пустые слова (но и не вся правда)

Что именно произошло

Если без воды, то изменения с 0:00 27 мая (по пекинскому времени, глобально и одновременно) выглядят так:

💸 Перманентное снижение цены API на всю серию MiMo-V2.5 — «максимум до 99%» относительно старого прайса, причём тарификация больше не зависит от длины входного контекста.

📦 Токен-планы прокачали: за те же деньги — в 5–8 раз больше доступных токенов, плюс упрощённые и более прозрачные правила биллинга.

🎁 Всем активным подписчикам токен-планов полностью сбросили израсходованную квоту — включая тех, кто получил пакеты в рамках программы «100 триллионов токенов» (она, кстати, завершилась досрочно — раздали всё ещё 26 мая).

🎧 Модель синтеза речи MiMo-V2.5-TTS пока остаётся бесплатной на ограниченное время.

И вот тут первый момент, на котором я хочу остановиться, потому что в пересказах его обычно проглатывают целиком. «До 99%» — это потолок, а не средняя температура по больнице. Базовая MiMo-V2.5 и до этого стоила копейки: примерно $0.40 за миллион входных и $2.00 за миллион выходных токенов; Pro-версия — $1.00 и $3.00 соответственно. Снизить такие ставки ещё на 99% по всему фронту физически нельзя — это уже почти даром. Откуда тогда «99%»? Из того, что Xiaomi убрала наценку за длину контекста. Раньше длинные входы (ближе к миллиону токенов) тарифицировались по премиальной ставке — вот по этому самому дорогому сценарию падение и достигает 99%. На коротких запросах выигрыш скромнее. Это честный, но всё-таки рекламный приём: берём самый болезненный тариф, считаем скидку от него и выносим в заголовок.

Почему это вообще стало возможно: немного инженерии

А вот это — часть, которую исходная новость стыдливо обошла, хотя именно она объясняет всё остальное. Цены упали не потому, что в Xiaomi решили «поработать на имидж и уйти в минус». Они упали потому, что себестоимость инференса реально просела — и команда довольно подробно расписала, как.

🧠 В основе — гибридная архитектура внимания: чередование Sliding Window Attention (SWA) и глобального внимания в соотношении 5:1 с окном на 128 токенов. Это та же идея, что унаследована от бэкбона MiMo-V2-Flash, и она сама по себе режет объём KV-кэша почти в 6 раз без потери качества на длинном контексте (за счёт обучаемого attention sink bias).

🗄️ Поверх этого — поддержка SWA на базе SGLang HiCache. Если по-человечески: KV-кэш гоняется по многоуровневому хранилищу (видеопамять → оперативка → SSD), и оптимизация сократила объём этих перегонов почти в 7 раз, а число токенов, которые помещаются в кэш, выросло примерно в 5 раз. Итог — выше hit-rate кэша, меньше пересчётов, дешевле каждый токен.

⚙️ Плюс оптимизация схемы экспертного параллелизма (модель-то — sparse MoE) и стратегия «бакетирования» входов по длине. Это повышает пропускную способность кластера на входе, что для агентских нагрузок с гигантскими промптами критично.

Вот это, на мой взгляд, и есть настоящая новость для инженера. «–99%» — это следствие. Причина — что инференс больших MoE-моделей с миллионным контекстом наконец-то научились готовить так, чтобы он не сжигал бюджет дата-центра заживо. И тот факт, что Xiaomi обещает выкатить отдельный техноблог с деталями оптимизаций, я лично жду больше, чем сам ценник.

Что вообще такое MiMo-V2.5 и почему «уровень Claude Opus» — это не пустые слова (но и не вся правда)

Чтобы понимать масштаб, надо вспомнить, что это за зверь. MiMo-V2.5 — это не просто «ещё одна китайская LLM». В апреле Xiaomi сделала любопытный архитектурный ход: раньше у них были раздельные модели — V2-Pro под текст и код, V2-Omni под мультимодалку (и заметно слабее по разуму). В V2.5 они схлопнули обе линейки в одну нативно-омнимодальную модель: текст, изображения, видео и аудио в единой архитектуре, без болтов-наростов в виде внешних энкодеров.

Технически это выглядит так:

🏗️ MiMo-V2.5 — sparse MoE на 310B параметров суммарно / 15B активных, обучена примерно на 48T токенов. Старшая MiMo-V2.5-Pro — уже 1.02T суммарно / 42B активных.

🖼️ За зрение отвечает отдельный ViT на 729M параметров с гибридным оконным вниманием, за слух — аудиоэнкодер, инициализированный из весов MiMo-Audio.

📏 Контекст — нативные 1 млн токенов, до которого модель доводили постепенно: 32K → 256K → 1M в ходе пятистадийного обучения. Этого хватает, чтобы скормить целые кодовые базы.

Теперь про сравнение с Claude Opus и Gemini, которое в новости подано как факт. Оно защитимо, но с оговорками. На агентских бенчмарках Pro-версия действительно идёт ноздря в ноздрю с топами: 57.2 на SWE-bench Pro, 63.8 на ClawEval, 72.9 на τ3-Bench, а на GDPVal-AA (Elo) — 1581, обгоняя Kimi K2.6 и GLM 5.1. По мультимодалке V2.5 тянется за Gemini 3 Pro на видео (87.7 против 88.4 на Video-MME) и матчит Claude Sonnet 4.6 на мультимодальных агентских задачах. И всё это — тратя на 40–60% меньше токенов на одну траекторию, чем Opus 4.6, Gemini 3.1 Pro и GPT-5.4. Самая эффектная демонстрация: V2.5-Pro с нуля написала компилятор SysY на Rust (лексер, парсер, RISC-V бэкенд) за 4.3 часа, сделав 672 вызова инструментов и набрав идеальные 233/233 на скрытых тестах.

Но вот тебе ложка дёгтя, без которой картинка была бы нечестной. Независимый Artificial Analysis Intelligence Index ставит V2.5-Pro на 54 балла — это «существенно выше среднего среди open-weight моделей», но это не абсолютный фронтир «во всём». Скорость генерации — около 56 токенов/с (ниже медианы), а время до первого токена — 3.5 с (на высоком конце). То есть модель блистает именно на агентских и мультимодальных задачах, где важна эффективность по токенам и длинная когерентность, а не на «ответь быстро и умно одной репликой». Так что «уровень Opus» — да, но в конкретной нише, а не как универсальный титул.

Моё мнение: ценник — это оружие, а не щедрость

Давай назовём вещи своими именами. Xiaomi — не ИИ-лаборатория в том смысле, в каком ими являются OpenAI или Anthropic. Это гигант железа и экосистемы. Для них дешёвый (а в идеале — почти бесплатный) инференс — это не способ заработать на API, а способ залить рынок и встроить ИИ в свои устройства, сервисы и партнёрские интеграции. Когда у тебя есть телефоны, бытовая техника и автомобили, маржа на токенах — последнее, о чём ты думаешь. Тебе важна привычка разработчика и пользователя.

И в этом контексте новость перестаёт быть единичным «вау» и становится частью большого паттерна. За последний год обвал цен устроили буквально все китайские лаборатории — DeepSeek, Qwen, Kimi, GLM, MiniMax. Это уже не разовая акция, а структурный ценовой демпинг, в котором фронтир-агентский инференс на глазах коммодитизируется. Для меня как для человека, который сам собирает мультиагентные системы, это означает простую вещь: стоимость «мозгов» в архитектуре стремительно стремится к стоимости электричества, и узким местом всё чаще становится не модель, а оркестрация, инструменты и данные.

Но есть и второй слой, который лично я считаю даже важнее цены. Модель открытая и self-hostable. Веса лежат на HuggingFace, она совместима со скаффолдами вроде Claude Code, OpenCode и Kilo как drop-in бэкенд. Это значит, что фронтир-уровень агентских способностей теперь можно поднять у себя, аудировать и не зависеть от чужого rate-limit и чужой политики. Вот это — настоящая угроза закрытым API, а не ценник. Цену конкурент может сбить ответным демпингом за неделю. А вот «у тебя это в облаке, а у меня — на своём железе и под полным контролем» — отыграть гораздо сложнее.

Что в итоге и чего ждать

Если коротко свести воедино:

📉 «–99%» — реальное, но рекламно поданное снижение: основной обвал пришёлся на премиальный длинноконтекстный тариф, базовые ставки и так были низкими.

🔧 Главная причина — не благотворительность, а конкретная инженерия инференса: гибридное внимание, SGLang HiCache, KV-кэш ужатый в ~7 раз, экспертный параллелизм.

🧩 V2.5 — серьёзная омнимодальная модель, которая на агентских и мультимодальных бенчмарках реально сидит рядом с Opus и Gemini, но с оговорками по «общему интеллекту» и скорости.

🌍 Стратегически это ход экосистемного гиганта, а не лаборатории: дешёвый открытый ИИ как инструмент захвата рынка, в одном ряду с демпингом DeepSeek, Qwen и компании.

Мой прогноз? Во-первых, ответ от других китайских игроков прилетит быстро — ценовая спираль вниз ещё не закончилась, и к концу года «миллион токенов контекста за центы» перестанет кого-либо удивлять. Во-вторых, центр тяжести конкуренции окончательно сместится с «чья модель умнее на один балл» на «чья модель дешевле и эффективнее держит тысячу вызовов инструментов подряд» — то есть в сторону агентской экономики, где Xiaomi как раз и целится. И в-третьих, для нас, разработчиков, окно возможностей открылось шире некуда: строить мультиагентные штуки на фронтир-моделях стало почти бесплатно, и теперь единственная отговорка «дорого» окончательно умерла. Я бы на месте любого, кто откладывал эксперименты «до лучших цен», — открывал консоль уже сегодня.

Источники

🔗 Xiaomi MiMo — официальная документация платформы

🔗 Анонс снижения цен MiMo-V2.5 (официальная страница платформы)

🔗 Разбор новости на Telegraph

🔗 MarkTechPost — релиз MiMo-V2.5-Pro и MiMo-V2.5: бенчмарки и эффективность по токенам

🔗 VentureBeat — open-source MiMo-V2.5 и V2.5-Pro в агентских задачах

🔗 HuggingFace — карточка модели MiMo-V2.5 (архитектура, веса)

🔗 Xiaomi MiMo — официальная страница MiMo-V2.5-Pro

🔗 Artificial Analysis — независимый анализ интеллекта и производительности MiMo-V2.5-Pro

🔗 OpenRouter — текущие цены и характеристики MiMo-V2.5-Pro