Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом. Система на 4,7 млрд параметров построена по принципу (VLA, vision-language-action) и объединяет визуальное восприятие, понимание языка и выполнение действий в реальном времени — то, что компания называет основой «физического интеллекта». По данным Xiaomi, модель показывает рекордные результаты как в симуляциях, так и в реальных экспериментах. Архитектура Mixture-of-Transformers разделяет задачи между двумя блоками. Модель визуального языка VLM отвечает за интерпретацию инструкций и пространственное понимание сцены. Второй компонент — это то, что Xiaomi называет Action Expert. Вместо того чтобы воспроизводить одно действие за раз, он генерирует так называемый «блок действия» — последовательность движений — используя методы согласования потоков для обеспечения точности и плавности движений. Совместное обучение на мультимодальных и моторных данных позволило сохранить спосо
Xiaomi выходит в большую робототехнику: представлена модель Xiaomi-Robotics-0 с 4,7 млрд параметров
12 февраля12 фев
11
1 мин