181,6 тыс подписчиков

Андроид смог последовательно станцевать и подраться

10 марта10 мар

3 мин

Китайские инженеры разработали фреймворк OmniXtreme, позволяющий обучить единую нейросетевую политику управления человекоподобным роботом сразу множеству экстремальных движений — от сальто и стоек на руках до брейк-данса и элементов боевых искусств. OmniXtreme решает проблему объединения разнообразных навыков в одной модели без падения качества выполнения. Препринт статьи опубликован на сайте arXiv.org, у проекта есть сайт с демонстрационными видео на GitHub. Обучение андроидов точному воспроизведению движений лежит в основе множества практических навыков, среди которых и манипуляции предметами, и взаимодействие с людьми. Методы обучения с подкреплением позволили роботам научиться точно повторять отдельные сложные движения, включая танцы и акробатику. Однако при попытке масштабировать подход и научить одного робота сразу большому набору разнообразных движений возникает проблема — качество повторения движений деградирует по мере роста их разнообразия и сложности. Контроллер начинает уср

Обучение андроидов точному воспроизведению движений лежит в основе множества практических навыков, среди которых и манипуляции предметами, и взаимодействие с людьми. Методы обучения с подкреплением позволили роботам научиться точно повторять отдельные сложные движения, включая танцы и акробатику. Однако при попытке масштабировать подход и научить одного робота сразу большому набору разнообразных движений возникает проблема — качество повторения движений деградирует по мере роста их разнообразия и сложности. Контроллер начинает усреднять поведение, теряя точность. Закономерность, известная как компромисс между точностью и масштабируемостью, особенно заметна в случае движений с высокой динамикой, когда даже небольшие ошибки приводят к падению робота.

Разработчики под руководством Сыюаня Хуана (Siyuan Huang) из Пекинского института искусственного интеллекта BIGAI и компании Unitree Robotics, стремясь решить эту проблему, создали фреймворк OmniXtreme с двухэтапной схемой обучения. На первом этапе для каждого движения из обширной библиотеки записанных с помощью технологии захвата движений примеров тренируются отдельные экспертные политики. Затем знания всех экспертов объединяются в единую генеративную модель с помощью метода flow matching — подхода, в котором нейросеть учится восстанавливать целевое действие из случайного шума, обучаясь предсказывать направление «потока» от шума к правильному управляющему сигналу.

Вторая стадия решает проблему переноса движений на реальное «железо» андроида. Для этого базовая модель, выучившая все движения, замораживается, а поверх нее обучается небольшая корректирующая нейросеть с помощью метода обучения с подкреплением (Residual RL). Эта остаточная политика вырабатывает небольшие поправки к базовым действиям, учитывая реалистичную модель электроприводов. В частности, в симуляции воспроизводятся зависимости крутящего момента от скорости вращения мотора и добавляются штрафы за чрезмерную мощность на коленных суставах — эффект, при котором моторы генерируют опасные нагрузки во время приземления робота.

Разработчики включили в тестовую выборку около 60 экстремальных движений, включая сальто, брейк-данс, элементы боевых искусств и акробатические трюки. В симуляции OmniXtreme стабильно превосходил базовые методы, в роли которых выступили прямое обучение единой политики на всех движениях сразу и дистилляция отдельных экспертов в обычную нейросеть-перцептрон. Доля успешных трюков составила около 96 процентов против 79 у стандартного обучения с подкреплением.

На реальном роботе Unitree G1 инженеры провели 157 испытаний на выполнение 24 различных движений. Общий показатель успеха составил около 91 процента. Все вычисления работали на бортовом компьютере робота, обеспечивая управление в реальном времени с частотой 50 герц. Возникавшие отказы были связаны в основном с аппаратными ограничениями — срабатыванием защиты от перегрузки моторов при экстремальных приземлениях, — а не с потерей баланса.

С помощью метода обучения с подкреплением инженеры из института RAI научили двухколесного робота на базе детского беговела ездить задом наперед, выполнять прыжки и даже делать сальто.

Гаджеты и электроника

5,73 млн интересуются