208,9 тыс подписчиков

Xiaomi выходит в большую робототехнику: представлена модель Xiaomi-Robotics-0 с 4,7 млрд параметров

12 февраля12 фев

1 мин

Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом. Система на 4,7 млрд параметров построена по принципу (VLA, vision-language-action) и объединяет визуальное восприятие, понимание языка и выполнение действий в реальном времени — то, что компания называет основой «физического интеллекта». По данным Xiaomi, модель показывает рекордные результаты как в симуляциях, так и в реальных экспериментах. Архитектура Mixture-of-Transformers разделяет задачи между двумя блоками. Модель визуального языка VLM отвечает за интерпретацию инструкций и пространственное понимание сцены. Второй компонент — это то, что Xiaomi называет Action Expert. Вместо того чтобы воспроизводить одно действие за раз, он генерирует так называемый «блок действия» — последовательность движений — используя методы согласования потоков для обеспечения точности и плавности движений. Совместное обучение на мультимодальных и моторных данных позволило сохранить спосо

Xiaomi представила свою первую крупномасштабную робототехническую модель Xiaomi-Robotics-0 с открытым исходным кодом.

Система на 4,7 млрд параметров построена по принципу (VLA, vision-language-action) и объединяет визуальное восприятие, понимание языка и выполнение действий в реальном времени — то, что компания называет основой «физического интеллекта». По данным Xiaomi, модель показывает рекордные результаты как в симуляциях, так и в реальных экспериментах.

Архитектура Mixture-of-Transformers разделяет задачи между двумя блоками. Модель визуального языка VLM отвечает за интерпретацию инструкций и пространственное понимание сцены. Второй компонент — это то, что Xiaomi называет Action Expert. Вместо того чтобы воспроизводить одно действие за раз, он генерирует так называемый «блок действия» — последовательность движений — используя методы согласования потоков для обеспечения точности и плавности движений.

Совместное обучение на мультимодальных и моторных данных позволило сохранить способность к рассуждению при освоении физических действий.

Robotics-0 продемонстрировала высокие показатели в тестах LIBERO, CALVIN и SimplerEnv, а также успешно справилась с практическими задачами на двурукой платформе — от складывания полотенец до работы с блоками.

Для снижения задержек используется асинхронный вывод и механизмы стабилизации движений, что делает поведение робота более плавным и устойчивым к изменениям окружающей среды.

Гаджеты и электроника

5,73 млн интересуются