Найти в Дзене
Цифровой Океан

Российские ученые разработали крупнейший в мире тест на понимание неоднозначных инструкций для роботов

Оглавление

В России создан уникальный открытый датасет, призванный оценивать, насколько хорошо современные роботы способны интерпретировать сложные, неполные и неоднозначные команды человека. Над проектом работали специалисты Института искусственного интеллекта AIRI, Московского физико-технического института и Центра робототехники «Сбера».

Photo by hobijist3d on Unsplash
Photo by hobijist3d on Unsplash

Зачем роботам тест на «понимание»?

Развитие бытовой робототехники сталкивается с одной из ключевых проблем — нечеткость и многозначность человеческих инструкций. В реальной жизни человек редко формулирует просьбы с абсолютной точностью.

Фразы вроде «принеси что-нибудь попить» могут включать в себя десятки вариантов ответа: от чашки чая до бутылки воды или сока, а в некоторых случаях — и вовсе потребовать дополнительных разъяснений. Но если робот каждый раз будет переспрашивать, взаимодействие быстро станет утомительным.

Photo by julien Tromeur on Unsplash
Photo by julien Tromeur on Unsplash

Кухня как полигон для испытаний

Созданный тест представляет собой масштабный корпус из двух тысяч текстовых задач, связанных с выполнением бытовых действий на кухне. Каждая из них снабжена разметкой по типу возникающей неоднозначности.

  • Эти сценарии моделируют повседневные ситуации, в которых робот должен принять решение: нуждается ли инструкция в уточнении, можно ли применить здравый смысл или есть риск, связанный с безопасностью.

Исследователи классифицировали задачи по трем основным типам неясностей: предпочтения пользователей (например, горячий или холодный напиток), ситуации, где требуется здравый смысл (не подавать суп в ситечке), и кейсы, затрагивающие аспекты безопасности (не брать острый нож, если в комнате ребенок).

Photo by Aideal Hwa on Unsplash
Photo by Aideal Hwa on Unsplash

Результаты: роботы пока не справляются

Как показали первые тесты, существующие алгоритмы интерпретации инструкций пока далеки от совершенства. Даже самые продвинутые модели справлялись с неоднозначными задачами в среднем лишь в 20% случаев.

Это указывает на фундаментальные ограничения современных систем в области планирования поведения и семантической гибкости.

Что это даст разработчикам

Созданный датасет станет основой для новых исследований в сфере когнитивной робототехники. Он позволит разрабатывать более интеллектуальные и «человекоцентричные» управляющие алгоритмы.

По словам руководителя группы «Воплощенные агенты» лаборатории «Когнитивные системы ИИ» AIRI Алексея Ковалева, новый корпус поможет выявлять, на каком именно этапе взаимодействия возникает непонимание между человеком и машиной, и находить способы устранения этих разрывов.

Подобные разработки особенно актуальны в контексте стремительного развития сервисной и бытовой робототехники. В ближайшем будущем умение роботов «угадывать» смысл неполных указаний может стать ключевым параметром их эффективности, комфорта и безопасности в повседневной жизни.