взаимодействуют с ПО и окружением. • MiMo‑V2‑Pro — большая MoE‑модель (триллион параметров, ~42B активных) с длинным контекстом и ускоренной генерацией; по бенчмаркам близка к лидерам и заметно дешевле по API. • MiMo‑V2‑Omni — объединяет изображение, аудио и видео, умеет самостоятельно навигировать в браузере и анализировать дорожные съемки. • MiMo‑V2‑TTS — эмоции и паралингвистика из текста (даже пение) без плясок со сплайсингом. 📌 Главный смысл: Xiaomi хочет платформу для реальных агентов — не только читать текст, но и действовать в мире. Это укрепит тренд на автономные рабочие процессы, но модельным экосистемам ещё нужно доработать устойчивое планирование, координацию агентов и безопасность. 💡 Вывод: технологически интересно и конкурентно, но Подробнее тут
🔹 Xiaomi выпустила сразу три модели MiMo — LLM, мультимодальную модель и TTS — и не просто так: цель — агенты, которые видят, слышат и сами
ВчераВчера
~1 мин