42 подписчика

Xiaomi Robotics-0: как новая модель ИИ меняет представление о роботах

12 февраля12 фев

2 мин

В феврале 2026 года Xiaomi серьезно заявила о себе в робототехнике, выпустив первую в мире открытую модель VLA. Это не просто программное обеспечение - технология способна понимать бытовые команды и выполнять сложные движения с невиданной точностью. Xiaomi Robotics-0 работает на необычной системе Mixture-of-Transformers. Модель разделена на два функциональных блока: Visual-Language Brain анализирует то, что видит робот. Когда вы говорите "положи книгу на стол", он определяет где книга, что такое стол, как они расположены в пространстве. Cerebellum (Action Expert) отвечает за движения. Вместо отдельных действий он создает целые связки – так ваши команды превращаются в плавные жесты без рывков. Технология flow-matching здесь работает точнее человеческого мышечного контроля. Физики из MIT уже отмечают: такой подход решает главную проблему бытовых роботов – разрыв между пониманием задачи и её выполнением. По теме: Как Xiaomi меняет представление о премиум-сегменте в 2025 году Обычные модел

Оглавление

Мозг и движения: как устроена архитектура
Обучение без "деградации": в чём секрет
Почему движения выглядят естественно

В феврале 2026 года Xiaomi серьезно заявила о себе в робототехнике, выпустив первую в мире открытую модель VLA. Это не просто программное обеспечение - технология способна понимать бытовые команды и выполнять сложные движения с невиданной точностью.

Мозг и движения: как устроена архитектура

Xiaomi Robotics-0 работает на необычной системе Mixture-of-Transformers. Модель разделена на два функциональных блока:

Visual-Language Brain анализирует то, что видит робот. Когда вы говорите "положи книгу на стол", он определяет где книга, что такое стол, как они расположены в пространстве.

Cerebellum (Action Expert) отвечает за движения. Вместо отдельных действий он создает целые связки – так ваши команды превращаются в плавные жесты без рывков. Технология flow-matching здесь работает точнее человеческого мышечного контроля.

Физики из MIT уже отмечают: такой подход решает главную проблему бытовых роботов – разрыв между пониманием задачи и её выполнением.

По теме: Как Xiaomi меняет представление о премиум-сегменте в 2025 году

Обучение без "деградации": в чём секрет

Обычные модели при обучении теряют часть способностей. Xiaomi применила гибридный метод:

VLM Synergistic Training заставляет систему прогнозировать действия ещё на этапе анализа картинки. Это как научить человека не просто видеть чашку, а сразу знать как её взять.

DiT Specialized Training использует восстановление действий из шума. Представьте, что робот учится ходить, постоянно ошибаясь и корректируя траекторию – так достигается высокая точность.

Почему движения выглядят естественно

Три технологии устраняют "роботизированность" движений:

Асинхронный вывод – робот выполняет текущее действие пока система вычисляет следующее
Clean Action Prefix – каждое новое движение начинается из завершающей позиции предыдущего
λ-shape Attention Mask – фокусировка на текущей обстановке помогает мгновенно реагировать на изменения

В тестах с полотенцами и деталями конструктора роботы показали на 37% меньше ошибок по сравнению с Boston Dynamics Atlas. Хотя последний создан для других задач, разница в бытовых сценариях очевидна.

По теме: Компания Xiaomi представила MiMo-Embodied — открытую модель для робототехники и автономного вождения

Реальные результаты тестов

В трёх ключевых симуляторах (LIBERO, CALVIN, SimplerEnv) модель Xiaomi обошла 30 конкурентов. Но главное – реальные применения:

• Сборка разобранных блоков за 4.2 минуты (человеку нужно 3.1-3.5)
• Складывание полотенец со скоростью 11 секунд на изделие
• Точность захвата хрупких предметов – 99.3%

Система работает даже на видеокартах уровня RTX 4070 Ti, что делает её доступной для учебных заведений и стартапов.

Где взять и как использовать

Xiaomi раскрыла все материалы – от весов модели до документации:
• Проектная страница с примерами использования
• GitHub-репозиторий исходного кода
• Модели на Hugging Face для запуска

Комьюнити уже адаптирует модель для сельхозроботов и систем реабилитации. Один студент MIT собрал прототип, который помогает пожилым людям заваривать чай – с подсказками через очки AR.

Это не просто открытая модель. Это технологическая база для тысяч проектов – от умных домов до промышленной автоматизации. Главное преимущество – система учится понимать наш мир на уровне бытовых действий. Когда робот складывает полотенце, он не просто выполняет код – он осознаёт что делает.

По теме: Как Xiaomi внедряет ИИ и роботов в производство: План Лей Цзуня на 5 лет

]]>

Xiaomi

192,5 тыс интересуются