Xiaomi открыла исходный код Xiaomi-Robotics-0 — воплощенной VLA-модели с 4,7 млрд параметров, задержкой вывода 80 мс и управлением 30 Гц в реальном времени, работающей на RTX 4090. — pandaily.com 12 февраля основатель Xiaomi Лэй Цзюнь объявил об открытом релизе Xiaomi-Robotics-0, воплощенной модели Vision-Language-Action (VLA) с 4,7 миллиардами параметров. Код, веса модели и техническая документация теперь доступны на GitHub и Hugging Face. Модель использует архитектуру Mixture-of-Transformers, разделяя Vision-Language Model (VLM) и 16-слойный Diffusion Transformer (DiT). VLM отвечает за понимание инструкций и пространственное рассуждение, в то время как «моторная кора» DiT генерирует высокочастотные непрерывные последовательности движений с помощью flow matching. Архитектура обеспечивает задержку вывода 80 миллисекунд, поддерживает управление в реальном времени с частотой 30 Гц и может работать в реальном времени на потребительской видеокарте, такой как RTX 4090. Обучение следует двух
Xiaomi открывает исходный код ИИ-модели для робототехники: 4.7B параметров и задержка всего 80ms
13 февраля13 фев
2
1 мин