11,4 тыс подписчиков

🌟 Xiaomi релизнула 3 модели: LLM, омнимодальную и TTS

19 марта19 мар

1 мин

🟡MiMo-V2-Pro Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha. 🟢Artificial Analysis Intelligence Index - 49 баллов, это 8 место в мире и 2 среди китайских LLM. 🟢PinchBench - 84,0 (3 место, сразу за Claude Sonnet 4.6). 🟢ClawEval - 61,5, тоже 3 место, выше GPT-5.2. Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей). Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М. 🟡 MiMo-V2-Omni Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе. 🟢MM-BrowserComp - 52,0, на GPDVal AA - 1435, оба выше Gemini 3 Pro. Цена: $0,40 вход / $2,00

🌟 Xiaomi релизнула 3 модели: LLM, омнимодальную и TTS.

🟡MiMo-V2-Pro

Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha.

🟢Artificial Analysis Intelligence Index - 49 баллов, это 8 место в мире и 2 среди китайских LLM.

🟢PinchBench - 84,0 (3 место, сразу за Claude Sonnet 4.6).

🟢ClawEval - 61,5, тоже 3 место, выше GPT-5.2.

Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей).

Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М.

🟡 MiMo-V2-Omni

Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе.

🟢MM-BrowserComp - 52,0, на GPDVal AA - 1435, оба выше Gemini 3 Pro.

Цена: $0,40 вход / $2,00 выход.

На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ.

Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.

🟡MiMo-V2-TTS

Модель обучена на сотнях миллионов часов аудио, и допилена через многомерный RL. Синтезирует речь с управлением эмоциями на уровне отдельных предложений, поёт с сохранением высоты и ритма, воспроизводит китайские диалекты: сычуаньский, хэнаньский, кантонский, тайваньский. Поддержка других языков не заявлена.

Форматные маркеры в тексте: пунктуацию, частицы и выделение сама переводит в просодику без дополнительной разметки.

Доступ на ограниченный период - бесплатно. Сроки предложения не указаны.

Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.

Все модели релиза доступны через API на platform.xiaomimimo.com и в MiMo Studio.

@machinelearning

#news #ai #ml