1833 подписчика

Xiaomi открывает исходный код ИИ-модели для робототехники: 4.7B параметров и задержка всего 80ms

13 февраля13 фев

1 мин

Xiaomi открыла исходный код Xiaomi-Robotics-0 — воплощенной VLA-модели с 4,7 млрд параметров, задержкой вывода 80 мс и управлением 30 Гц в реальном времени, работающей на RTX 4090. — pandaily.com 12 февраля основатель Xiaomi Лэй Цзюнь объявил об открытом релизе Xiaomi-Robotics-0, воплощенной модели Vision-Language-Action (VLA) с 4,7 миллиардами параметров. Код, веса модели и техническая документация теперь доступны на GitHub и Hugging Face. Модель использует архитектуру Mixture-of-Transformers, разделяя Vision-Language Model (VLM) и 16-слойный Diffusion Transformer (DiT). VLM отвечает за понимание инструкций и пространственное рассуждение, в то время как «моторная кора» DiT генерирует высокочастотные непрерывные последовательности движений с помощью flow matching. Архитектура обеспечивает задержку вывода 80 миллисекунд, поддерживает управление в реальном времени с частотой 30 Гц и может работать в реальном времени на потребительской видеокарте, такой как RTX 4090. Обучение следует двух

12 февраля основатель Xiaomi Лэй Цзюнь объявил об открытом релизе Xiaomi-Robotics-0, воплощенной модели Vision-Language-Action (VLA) с 4,7 миллиардами параметров. Код, веса модели и техническая документация теперь доступны на GitHub и Hugging Face.

Модель использует архитектуру Mixture-of-Transformers, разделяя Vision-Language Model (VLM) и 16-слойный Diffusion Transformer (DiT). VLM отвечает за понимание инструкций и пространственное рассуждение, в то время как «моторная кора» DiT генерирует высокочастотные непрерывные последовательности движений с помощью flow matching.

Архитектура обеспечивает задержку вывода 80 миллисекунд, поддерживает управление в реальном времени с частотой 30 Гц и может работать в реальном времени на потребительской видеокарте, такой как RTX 4090.

Обучение следует двухэтапному подходу предварительного обучения:

Механизм Action Proposal заставляет VLM совместно предсказывать мультимодальные распределения действий во время визуального понимания, выравнивая пространства признаков и действий.
VLM замораживается, в то время как DiT обучается генерировать точные последовательности движений.

Пост-тренировка вводит асинхронный вывод и стратегию маскирования внимания Λ-образной формы, разделяя вывод и время выполнения, при этом отдавая приоритет текущей визуальной обратной связи.

В симуляции Xiaomi-Robotics-0 превзошла более 30 эталонных моделей, включая π0, OpenVLA, RT-1 и RT-2, на наборах данных LIBERO, CALVIN и SimplerEnv, достигнув нескольких новых SOTA результатов. На задаче Libero-Object она достигла 100% успешности.

При развертывании в реальном мире двурукий робот, управляемый моделью, продемонстрировал стабильную координацию «глаз-рука» в долгосрочных задачах с высокой степенью свободы (DoF), таких как разборка блоков и складывание полотенец, сохраняя при этом возможности обнаружения объектов и визуального ответа на вопросы.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Xiaomi

192,5 тыс интересуются