Найти в Дзене
AntiRunet

Xiaomi представила три новые языковые модели с флагманской нейросетью

Китайская корпорация Xiaomi представила три новые масштабные языковые модели. Эти разработки, получившие названия MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS, уже интегрируются в программное обеспечение и сервисы экосистемы компании. По данным представителей Xiaomi, новые системы станут частью будущей архитектуры искусственного интеллекта. «По качеству работы MiMo-V2-Pro приближается к лучшим мировым аналогам, но обойдётся разработчикам значительно дешевле» — такую оценку дали представители Xiaomi. Флагманская модель MiMo-V2-Pro заявлена как ключевое решение для «эры ИИ-агентов». Эта нейросеть способна самостоятельно выполнять сложные многоступенчатые задачи, минимизируя участие человека. Ее общий объем параметров превышает один терабайт, что составляет около одного триллиона, при контекстном окне в один мегабайт. Модель MiMo-V2-Omni отличается многомодальностью. Она способна обрабатывать не только текстовую информацию, но и взаимодействовать с изображениями, аудиозаписями и видеоконтентом

Китайская корпорация Xiaomi представила три новые масштабные языковые модели. Эти разработки, получившие названия MiMo-V2-Pro, MiMo-V2-Omni и MiMo-V2-TTS, уже интегрируются в программное обеспечение и сервисы экосистемы компании. По данным представителей Xiaomi, новые системы станут частью будущей архитектуры искусственного интеллекта. «По качеству работы MiMo-V2-Pro приближается к лучшим мировым аналогам, но обойдётся разработчикам значительно дешевле» — такую оценку дали представители Xiaomi. Флагманская модель MiMo-V2-Pro заявлена как ключевое решение для «эры ИИ-агентов». Эта нейросеть способна самостоятельно выполнять сложные многоступенчатые задачи, минимизируя участие человека. Ее общий объем параметров превышает один терабайт, что составляет около одного триллиона, при контекстном окне в один мегабайт. Модель MiMo-V2-Omni отличается многомодальностью. Она способна обрабатывать не только текстовую информацию, но и взаимодействовать с изображениями, аудиозаписями и видеоконтентом. Среди ее функций — анализ продолжительных диалогов с участием нескольких лиц, а также одновременное распознавание визуальных событий в видеоряде и соответствующего речевого сопровождения. Третья представленная модель, MiMo-V2-TTS, специализируется на синтезе человеческой речи. Она предоставляет широкие возможности для детальной настройки голосовых параметров, включая изменение тональности, эмоциональной окраски и стилистики произношения. Разработка поддерживает различные диалекты китайского языка и обладает способностью не только к речевому воспроизведению, но и к пению. Все три перечисленные модели уже открыты для использования сторонними разработчиками.