помогает роботам имитировать человеческое планирование и движение
Крупные языковые модели (LLM), такие как модель, лежащая в основе работы платформы OpenAI ChatGPT, теперь широко используются для выполнения широкого спектра задач — от поиска информации до генерации текстов на разных языках и даже кода. Многие учёные и инженеры также начали использовать эти модели для проведения исследований или продвижения других технологий.
В контексте робототехники LLM оказались перспективными для создания робото-политик, основанных на инструкциях пользователя. Политики по сути являются «правилами», которым робот должен следовать для правильного выполнения желаемых действий.
Исследователи из Инженерной школы NYU Tandon недавно представили новый алгоритм под названием BrainBody-LLM, который использует LLM для планирования и совершенствования действий робота. Новый алгоритм, представленный в статье, опубликованной в Advanced Robotics Research, вдохновлён тем, как человеческий мозг планирует действия и тонко настраивает движения тела со временем.
«LLM продемонстрировали глубокое понимание взаимодействия человека в реальной среде», — рассказал Винит Бхат, соавтор статьи, Tech Xplore. «В этой работе мы стремимся оценить эту возможность в контексте робототехники, предоставив LLM частичный доступ к фиксированному набору команд управления роботом. Для обеспечения безопасного развертывания и контролируемого тестирования среды этот доступ намеренно ограничен.»
Алгоритм BrainBody-LLM
Новый алгоритм, разработанный Бхатом и его коллегами, имитирует взаимодействие человеческого мозга и тела при планировании и выполнении конкретных движений. Алгоритм состоит из двух основных компонентов: Brain LLM и Body LLM.
Brain LLM планирует задачи высокого уровня, разбивая их на более простые и выполнимые этапы. Body LLM, напротив, генерирует команды для управления роботами на каждом из этих этапов, позволяя им выполнять нужные действия и движения.
«Механизм замкнутой обратной связи позволяет непрерывно отслеживать реакции окружающей среды и сигналы ошибок, которые возвращаются обратно в систему для автоматической коррекции», — пояснил Бхат. «Основное преимущество BrainBody-LLM заключается в её замкнутой архитектуре, которая способствует динамическому взаимодействию между компонентами LLM, обеспечивая надёжное выполнение сложных и сложных задач.»
Многообещающие результаты в симуляциях и реальных условиях
Исследователи протестировали предложенную модель как в симуляции, так и в реальном эксперименте. Симуляции, которые они проводили, проходили на платформе VirtualHome, где виртуальная версия робота выполняла различные домашние дела. Реальный эксперимент проводился с помощью роботизированной руки, известной как Franka Research 3.
Результаты команды были весьма многообещающими: их модель улучшила скорость выполнения заданий роботами на 17% по сравнению с другими современными моделями, с которыми они её сравнивали. Их модель позволяла роботизированной руке выполнять большинство испытанных задач, со средним уровнем успеха 84%.
«Многие современные агентные фреймворки на базе LLM используют схожие принципы, когда цепочка взаимодействующих LLM использует внешние инструменты для решения сложных человеческих запросов, таких как решение математических задач или проведение углубленного анализа», — добавил Бхат.
«В настоящее время мы изучаем различные подходы к интеграции дополнительных модальностей в LLM — таких как 3D-зрение, глубинное измерение и совместное управление — с целью обеспечения более человеческих движений и действий в роботизированных системах.»
В будущем недавно разработанный командой LLM BrainBody может быть дополнительно усовершенствован, применён на других роботах и протестирован в более широком спектре условий. Одновременно эта недавняя работа может вдохновить другие исследовательские группы на разработку аналогичных подходов на основе LLM для применения робототехники.