Открытая модель Xiaomi MiMo-V2.5-Pro вышла в конце апреля 2026 года и сразу собрала волну восторженных публикаций. Триллион параметров, лицензия MIT, контекст до миллиона токенов, цена в разы ниже Claude и GPT. В ряде постов модель называют убийцей Claude.
Решили проверить заявления не по чужим бенчмаркам, а на собственных продакшн-сервисах. Сравнили MiMo с Claude Haiku 4.5 и GPT-4o-mini на двух задачах, которые работают каждый день и стоят реальных денег.
В статье разбираем, что получилось по качеству, скорости и фактической стоимости. Где MiMo выигрывает, где провалилась, и почему «прайс в десять раз ниже» в реальности оборачивается счётом в несколько раз выше.
Если у вас в проде стоят LLM на коротких задачах вроде классификации или сборки JSON по запросу — этот разбор поможет решить, имеет ли смысл переезжать на MiMo.
!!! Больше кейсов на канале “AI для продакта”
Что такое Xiaomi MiMo-V2.5-Pro
Open-source модель Xiaomi с лицензией MIT. Веса лежат на HuggingFace, можно скачать и запустить у себя. В коммерческих продуктах использовать без ограничений.
Архитектура — Mixture of Experts. У модели триллион параметров, но при обработке одного запроса работают только 42 миллиарда. Модель сама выбирает, какую часть подключить под задачу. Отсюда и низкая цена при формально огромных характеристиках. Контекст до миллиона токенов, это около 750 тысяч слов в одном диалоге.
Доступна через OpenRouter и через собственную платформу Xiaomi AI Studio. $1 за миллион входных токенов и $3 за миллион выходных. Claude Sonnet стоит $3 и $15. По прайс-листу MiMo действительно в три-пять раз дешевле фронтир-моделей.
Под какие задачи Xiaomi создавала MiMo
В документации Xiaomi явно описывает три класса задач:
- длинные агентные цепочки на тысячи последовательных шагов с вызовами инструментов;
- автономная разработка с нуля (в официальном примере MiMo за 4 часа написала компилятор языка SysY на Rust, 672 вызова инструментов);
- работа на очень длинном контексте.
Это профиль модели-марафонца. Долго думает, держит большой контекст, итеративно доводит сложную задачу до результата. На марафонах MiMo не сравнивали — у тестируемых сервисов таких задач нет, и для такого замера нужна другая методология. Если кто-то гонял MiMo на тысячах tool calls, расскажите в комментариях. Этот материал про другое — про MiMo в роли обычного прикладного LLM, который десятки раз в день обрабатывает короткие запросы.
Какие задачи проверяли
Два продакшн-сервиса с разными типами LLM-нагрузки, оба работают на ежедневной основе.
Задача первая. Сборка JSON-фильтра по тексту пользователя
Сервис для жителей города. Пользователь описывает интерес обычным языком: «потерянные и найденные животные», «отключение горячей воды», «новости школы». Модель собирает из этого JSON-фильтр с категориями и ключевыми словами. По фильтру дальше идёт поиск по базе постов городского паблика. В проде стоит Claude Haiku 4.5.
Для замера взяли 25 живых запросов из логов прода — смесь типовых сценариев. Это пилотная выборка для проверки drop-in миграции, не бенчмарк.
Задача вторая. Автоматическая разметка пользовательских комментариев
Сервис обрабатывает потоки комментариев. Модель размечает каждый по двум измерениям: класс (жалоба, благодарность, вопрос, информация, реакция, предложение) и тональность (позитивная, негативная, нейтральная). Разметка дальше идёт в аналитику. В проде стоит GPT-4o-mini.
Для замера разметили вручную 90 комментариев — слепо, до того как стали известны ответы моделей. Эта ручная разметка и стала эталоном.
Как меряли
Главный вопрос любого сравнения моделей — что считать правильным ответом. Если просто сравнивать выходы двух моделей между собой, измеришь процент их согласия, а не качество. Поэтому в обеих задачах эталон — независимый источник: формальные правила прод-промпта в первой задаче и слепая ручная разметка автора во второй.
Промпты в обеих задачах — действующие продакшн-версии без подгонки под MiMo. Сравниваются модели, а не варианты промптов.
Тестирование шло через OpenRouter. Self-host и прямой Xiaomi API не использовали. Часть метрик латентности и инфра-сбоев относится к этому пути доступа.
Стоимость и латентность считали по фактическим логам с учётом ретраев на невалидный JSON. Качество и валидность в таблицах указаны на финальном ответе после ретраев. Пустой или оборванный ответ модели считали ошибкой качества — для прода это и есть ошибка, пользователь не получает работающий результат.
Для процентных показателей рассчитан 95% доверительный интервал по методу Уилсона.
Результаты на первой задаче. JSON-фильтр
Обе модели получили один и тот же набор из 25 запросов и один и тот же промпт.
Claude отдаёт корректный JSON в 100% случаев, MiMo в 60%. Между доверительными интервалами разрыв — это не случайность.
По стоимости с учётом ретраев на невалидный JSON MiMo получился дороже Haiku, несмотря на формально низкую ставку. Подробный разбор откуда взялась эта разница — в блоке про прайс-лист.
По латентности разница в четыре раза по медиане. Запрос, который Claude обрабатывает за две секунды, MiMo обрабатывает за семь, а в худших случаях доходит до тринадцати.
Где MiMo обошёл Claude
В одном случае MiMo прочитал правила промпта точнее. Пользователь запросил «потерянные и найденные животные». Claude разобрал буквально и собрал фильтр только по ключевым словам — в базе по такому фильтру не нашлось ни одного поста. MiMo же увидел, что в таксономии сервиса есть категория «Животные», и собрал фильтр шире: категория плюс ключевые слова. По такому фильтру нашлось 17 релевантных постов.
Честная микро-победа. Не отменяет общую картину, но показывает: на тех запросах, где MiMo хватает токенов додумать, модель способна на более глубокий разбор инструкции.
Результаты на второй задаче. Разметка комментариев
Обе модели разметили одну и ту же выборку из 90 пользовательских комментариев против эталона — слепой ручной разметки автора.
Главная цифра — точность. 89% против 54%. Доверительные интервалы не пересекаются: нижняя граница у GPT 81%, верхняя у MiMo 64%. Зазор в 17 пунктов, биномиальной случайностью не объясняется.
По стоимости с учётом ретраев MiMo обошёлся в одиннадцать раз дороже. На фоне постов про «модель в десять раз дешевле Claude» — особенно показательно.
По латентности у MiMo медиана в пять раз выше. Хвост уходит за минуту: почти каждый сотый запрос дольше 58 секунд. Для интерактивного сервиса это самостоятельный стоп-фактор независимо от качества и цены.
Разрез по классам
Падение видно во всех шести классах. Концентрации ошибок в одном-двух классах нет.
Примеры провалов
Простой случай. Комментарий «Огромное СПАСИБО всем причастным!» GPT классифицировал как благодарность с позитивной тональностью, MiMo — как мусор с нейтральной. Прямая благодарность с восклицательным знаком и капсом не распознана.
Длинный случай. Развёрнутое пользовательское предложение по работе сервиса. GPT правильно отметил как предложение, MiMo вернул пустой ответ. Не «неверный класс», а ноль символов в поле результата. Что происходит в таких случаях — в следующем блоке.
Почему MiMo проваливается. Дело в архитектуре
В таблицах несколько цифр, которые на первый взгляд выглядят как разные проблемы. 14 невалидных JSON из 90. Пустые ответы. Латентность под минуту в хвосте. Точность 54%.
Все эти симптомы согласуются с одной причиной.
MiMo — reasoning-модель. Перед каждым ответом она проводит развёрнутое внутреннее рассуждение. Думает вслух, только этот текст не виден пользователю. Внутри одного запроса модель тратит токены сначала на размышление, потом на видимый ответ. Всё вместе укладывается в общий лимит на ответ, который выставляет разработчик.
В продакшн-настройках обоих сервисов лимит — 300 токенов. Этого хватает любой не-reasoning модели: GPT-4o-mini и Claude Haiku укладываются в 170 токенов с запасом. Для MiMo 300 токенов мало. Модель уходит в размышление, тратит весь бюджет на reasoning и доходит до конца лимита либо в середине ответа, либо ещё на стадии «думания». В первом случае пользователь видит оборванный JSON, во втором — пустую строку.
Что нашли при разборе ошибок. Из 14 невалидных ответов на разметке 12 — одна и та же история: шесть оборвались на полуслове, шесть вернули ноль символов. Два — инфраструктурные сбои на стороне OpenRouter. На первой задаче из 10 невалидных: четыре оборванных, шесть пустых. Это не случайные сбои, это системный механизм.
Окончательно отделить вклад reasoning-архитектуры от других возможных причин (настроек провайдера, формата ответа, маршрутизации) можно было бы контрольным замером с поднятыми лимитами токенов. Такого замера не делали — для прода это означает кратный рост стоимости и латентности, и смысл миграции пропадает в любом варианте.
MiMo не плохая модель. Она оптимизирована под другое — длинные сложные задачи, где способность долго думать работает в плюс.
Парадокс прайс-листа. Почему «в десять раз дешевле» оборачивается в одиннадцать раз дороже
Главный аргумент в постах про MiMo — цена. $1 за миллион входных токенов и $3 за миллион выходных. На фоне Claude Sonnet с его $3 и $15 это выглядит как сделка. По прайс-листу MiMo дешевле в три-пять раз.
На задаче с разметкой получилось наоборот. MiMo обошёлся в одиннадцать раз дороже GPT-4o-mini. Откуда взялась разница — разберём по слагаемым.
Перемножаются два множителя.
Первый — сама ставка MiMo выше ставки GPT-4o-mini. По входу почти в семь раз, по выходу в пять. Это первая ловушка прайс-листа. Когда MiMo сравнивают с Claude Sonnet, она кажется дешёвой. Когда сравнивают с лёгкими моделями уровня GPT-4o-mini, на которых обычно и крутятся прикладные задачи в проде, она оказывается уже дорогой.
Второй множитель — главный источник разрыва. На той же задаче с тем же промптом MiMo генерирует в 3.7 раза больше выходных токенов. Та же JSON-разметка из пары полей, тот же формат, разница в объёме ответа почти в четыре раза.
Это та самая verbose-проблема, о которой пишут независимые исследователи моделей. Reasoning-архитектура заставляет модель проговаривать рассуждение в каждом ответе. Часть уходит в скрытый блок, часть выливается в видимый текст, который и оплачивается. На длинных задачах verbose оправдан. На короткой классификации он становится прямым налогом на каждый запрос.
Что с этим делать
Если в проде стоит лёгкая модель уровня GPT-4o-mini или Claude Haiku на классификации, разметке или сборке JSON — миграция на MiMo без перестройки всего стека почти гарантированно ухудшит и качество, и стоимость, и латентность. Это доказано на нашей задаче и подтверждается архитектурой reasoning-моделей в целом.
Возможно ли довести MiMo до приемлемого качества отдельной настройкой — увеличением лимитов токенов в 5-10 раз, переподбором промпта, другим форматом ответа? Технически да. Но экономика и UX при этом ломаются полностью: стоимость и латентность вырастут кратно, и смысл миграции пропадёт.
Главный практический урок этого замера выходит за пределы MiMo. Перед миграцией любой LLM в проде нужно проверять модель на собственных данных, а не верить прайс-листу. Час-полтора работы: взять 50-100 запросов из логов, прогнать с действующим промптом, замерить четыре цифры — процент валидных ответов, точность по эталону, среднее число выходных токенов, латентность p95. И посчитать фактическую стоимость 1000 запросов с учётом ретраев.
Без замера выходных токенов любое сравнение моделей по прайсу недостоверно. Verbose-фактор reasoning-моделей перекрывает скидку по ставке в 3-5 раз — то есть «дешевле на 30%» по прайсу часто означает «дороже в три раза» по факту.
Финал
Заявление «MiMo — убийца Claude» на коротких прикладных задачах не подтвердилось. Модель уступила действующим решениям по качеству, по фактической стоимости и по латентности. Причина — у MiMo другой профиль применения: длинные задачи с большим токен-бюджетом, а не короткие классификационные вызовы с жёсткими лимитами.
На длинных агентных задачах MiMo может оказаться совершенно другой моделью. Этот замер про неё ничего не говорит. Если в вашей практике был опыт работы с MiMo на марафонских задачах с тысячами вызовов инструментов — расскажите в комментариях, такой материал был бы интересен отдельной статьёй.
!!! Больше кейсов на канале “AI для продакта”