3 подписчика

Qwen-VLA объединяет зрение, язык и действия

29 мая29 мая

~1 мин

🤖 Qwen представила Qwen-VLA — модель для роботов, которая связывает визуальное понимание, текстовые инструкции и выполнение действий в одной системе. Модель построена на Qwen3.5-4B и 1,15B DiT-декодере действий. Она работает с манипуляцией предметами, навигацией и прогнозированием траекторий без отдельных голов под каждую задачу. Главная идея — один универсальный контур для разных платформ: одиночных манипуляторов, двухруких систем и гуманоидов. По отчёту, Qwen-VLA-Instruct заметно сильнее базовой версии на ряде робототехнических бенчмарков. Пока это исследовательский релиз: доступны технический отчёт, GitHub-репозиторий, но отдельных релизов ещё нет. #Qwen #QwenVLA #AI #Robotics #VLA #EmbodiedAI #RobotLearning

Qwen-VLA объединяет зрение, язык и действия 🤖

Qwen представила Qwen-VLA — модель для роботов, которая связывает визуальное понимание, текстовые инструкции и выполнение действий в одной системе.

Модель построена на Qwen3.5-4B и 1,15B DiT-декодере действий. Она работает с манипуляцией предметами, навигацией и прогнозированием траекторий без отдельных голов под каждую задачу.

Главная идея — один универсальный контур для разных платформ: одиночных манипуляторов, двухруких систем и гуманоидов. По отчёту, Qwen-VLA-Instruct заметно сильнее базовой версии на ряде робототехнических бенчмарков.

Пока это исследовательский релиз: доступны технический отчёт, GitHub-репозиторий, но отдельных релизов ещё нет.

#Qwen #QwenVLA #AI #Robotics #VLA #EmbodiedAI #RobotLearning