Учёные из Калифорнийского университета в Беркли разработали новую вычислительную структуру под названием RoVi-Aug, которая позволяет дополнять роботизированные данные и облегчает передачу навыков между различными роботами. Эта структура использует генеративные модели для дополнения данных изображений и создания синтезированных визуальных демонстраций задач с различными видами камер для разных роботов.
По словам группы разработчиков, которыми руководили исследователи Лоуренс Чен (Lawrence Chen) и Чэньфэн Сю (Chenfeng Xu), целью их работы было преодолеть ограничения существующих алгоритмов, которые не могут надёжно передавать навыки между роботами с разными корпусами и характеристиками. Они отметили, что многие существующие наборы данных для обучения роботов не сбалансированы и содержат неточности, которые могут привести к переобучению определённых типов роботов.
«Успех современных систем машинного обучения, в частности генеративных моделей, демонстрирует впечатляющую обобщаемость и мотивирует исследователей робототехники искать, как достичь аналогичной обобщаемости в робототехнике», — рассказали Чен и Сюй.
RoVi-Aug состоит из двух отдельных компонентов: модуля роботизированного дополнения (Ro-Aug) и модуля дополнения точки обзора (Vi-Aug). Первый компонент синтезирует демонстрационные данные с участием различных роботизированных систем, а второй производит демонстрации с разных углов.
«Ro-Aug имеет две ключевые особенности: тонко настроенную модель SAM для сегментации робота и тонко настроенную ControlNet для замены исходного робота другим. Тем временем Vi-Aug использует ZeroNVS, современную модель синтеза новых видов, для создания новых перспектив сцены, что делает модель адаптируемой к различным точкам обзора камеры», — объяснили Чен и Сюй.
Исследователи использовали свою структуру для создания дополненного набора данных робота и проверили его эффективность для обучения политик и передачи навыков между различными роботами. Их результаты показали, что RoVi-Aug позволяет обновлять политики, которые хорошо обобщаются между различными роботами и настройками камер.
«Ключевое новшество заключается в применении генеративных моделей, таких как генерация изображений и синтез новых представлений, к задаче кросс-воплощенного обучения роботов», — пояснили Чен и Сюй.
Эта работа может способствовать развитию роботов, помочь исследователям легко расширять набор навыков систем. В будущем она может быть использована другими командами для передачи навыков между различными роботами или разработки более эффективных универсальных роботизированных политик.
Например, представьте себе ситуацию, когда исследователь потратил значительные усилия на сбор данных и обучение робота Franka политике выполнения задачи, но у вас есть только робот UR5. RoVi-Aug позволяет вам повторно использовать данные Franka и развёртывать политику на роботе UR5 без дополнительного обучения. Это особенно полезно, поскольку политики робота часто чувствительны к изменениям точки обзора камеры, а настройка идентичных углов камеры для разных роботов является сложной задачей. RoVi-Aug устраняет необходимость в таких точных настройках.Лоуренс Чен, Чэньфэн Сю
По словам авторов работы, RoVi-Aug может быть экономически эффективной альтернативой для простого составления надёжных наборов данных для обучения. Они также отметили, что их подход может быть расширен для применения к другим наборам данных роботов и что они планируют дальнейшее совершенствование RoVi-Aug, включая генерацию видео вместо генерации изображений.
«Мы также планируем применить RoVi-Aug к существующим наборам данных, таким как набор Open-X Embodiment (OXE), и воодушевлены потенциалом повышения производительности универсальных политик роботов, обученных на этих данных. Расширение возможностей RoVi-Aug может значительно повысить гибкость и надёжность этих политик для более широкого спектра роботов и задач», — заключили исследователи.