13 подписчиков

🔹 Xiaomi выпустила сразу три модели MiMo — LLM, мультимодальную модель и TTS — и не просто так: цель — агенты, которые видят, слышат и сами

ВчераВчера

~1 мин

взаимодействуют с ПО и окружением. • MiMo‑V2‑Pro — большая MoE‑модель (триллион параметров, ~42B активных) с длинным контекстом и ускоренной генерацией; по бенчмаркам близка к лидерам и заметно дешевле по API. • MiMo‑V2‑Omni — объединяет изображение, аудио и видео, умеет самостоятельно навигировать в браузере и анализировать дорожные съемки. • MiMo‑V2‑TTS — эмоции и паралингвистика из текста (даже пение) без плясок со сплайсингом. 📌 Главный смысл: Xiaomi хочет платформу для реальных агентов — не только читать текст, но и действовать в мире. Это укрепит тренд на автономные рабочие процессы, но модельным экосистемам ещё нужно доработать устойчивое планирование, координацию агентов и безопасность. 💡 Вывод: технологически интересно и конкурентно, но Подробнее тут

🔹 Xiaomi выпустила сразу три модели MiMo — LLM, мультимодальную модель и TTS — и не просто так: цель — агенты, которые видят, слышат и сами взаимодействуют с ПО и окружением.

• MiMo‑V2‑Pro — большая MoE‑модель (триллион параметров, ~42B активных) с длинным контекстом и ускоренной генерацией; по бенчмаркам близка к лидерам и заметно дешевле по API.

• MiMo‑V2‑Omni — объединяет изображение, аудио и видео, умеет самостоятельно навигировать в браузере и анализировать дорожные съемки.

• MiMo‑V2‑TTS — эмоции и паралингвистика из текста (даже пение) без плясок со сплайсингом.

📌 Главный смысл: Xiaomi хочет платформу для реальных агентов — не только читать текст, но и действовать в мире. Это укрепит тренд на автономные рабочие процессы, но модельным экосистемам ещё нужно доработать устойчивое планирование, координацию агентов и безопасность. 💡

Вывод: технологически интересно и конкурентно, но

Подробнее тут