» Xiaomi представила свою первую крупномасштабную модель с открытым исходным кодом, объединяющую зрение, язык и управление движениями робота в единую систему. — Архитектура: Mixture-of-Transformers с двумя блоками: VLM для понимания сцены и Action Expert для генерации движений — Параметры: 4,7 млрд — Подход: Vision-Language-Action (VLA), обучение на мультимодальных и моторных данных — Действия: генерация «блоков действий» — последовательностей движений для плавного выполнения задач — Тестирование: высокие результаты в тестах LIBERO, CALVIN, SimplerEnv и на двурукой платформе (складывание полотенец, работа с блоками) — Оптимизация: асинхронный вывод и стабилизация движений для снижения задержек и устойчивости к изменениям среды 👉 Tech leaks в Telegram | Дзен