Найти тему
Научный деятель

На пути к надежному интерактивному и обучающемуся социальному роботу. Часть 1

Оглавление
Pepper - гуманоидный робот, специально разработанный для социального взаимодействия, который был развернут в различных общественных средах. Также доступна программируемая версия Pepper, позволяющая проводить целенаправленные исследования восприятия и поведенческой устойчивости, а также возможностей интерактивного социального робота.
https://www.pinterest.ru/pin/63894888452902077/
https://www.pinterest.ru/pin/63894888452902077/

Специалисты решают проблему восприятия этого робота, интегрируя современные системы распознавания речи и зрения и экспериментально анализируя их эффективность. Осознавая ограниченность индивидуальных моделей восприятия, внедряется мультимодальный подход для повышения устойчивости социального взаимодействия человека с роботом. Ученые сочетают зрение, жест, речь и звук с бортового планшета, удаленного мобильного телефона и внешних микрофонов.

  • Их подход включает в себя активный поиск вклада со стороны другого способа, добавляя устойчивости к сбоям отдельных компонентов.
  • Также внедряется алгоритм обучения для улучшения коммуникационных возможностей с течением времени, обновляя распознавание речи через социальные взаимодействия.
  • Наконец, получаются богатые сенсорные данные о теле робота и внедряется подход, основанный на глубоком изучении окружающих, который позволяет Pepper классифицировать и высказывать различные движения своего тела.

Вклад исследовательской работы ученых актуален как для Pepper, так и для других социальных роботов.

Активным направлением исследований является разработка служебных роботов, которые могут помочь людям. Поскольку эти роботы все чаще используются в реальных условиях, очень важно, чтобы они могли надежно взаимодействовать с людьми, с которыми они сталкиваются. В этой работе сосредоточимся на возможностях социального взаимодействия сервисных роботов. Используя платформу Pepper-робота, разработанную SoftBank/Aldebaran Robotics и предназначенную для социального взаимодействия. SoftBank Robotics предоставляет возможности восприятия и взаимодействия по умолчанию через собственную платформу NAOqi. Специалисты расширяют эти возможности для содействия более гибкому и надежному взаимодействию человека и робота.

Методы, которые они используют для расширения возможностей Pepper, могут быть применены к любому роботу.

  • Для расширения возможностей восприятия Pepper расширяется встроенное программное обеспечение самыми современными внешними библиотеками восприятия.
  • Для зрения используется пакет обнаружения человеческой позы OpenPose и пакеты единичного распознавания (YOLO) и более быстрого распознавания R-CNNN объектов.
  • Для речи сочетают распознавание речи NAOqi с платформой Google Cloud Speech, чтобы повысить точность и обеспечить общий речевой ввод.
  • Ученые эмпирически оценивают эти системы на Pepper и характеризуют их сильные и слабые стороны.
  • Анализируют производительность сетей YOLO и Faster R-CNNN на объектах, которые интуитивно не соотносятся с категориями в наборе меток COCO, для моделирования реальных сценариев, в которых роботу предлагается определить классы объектов, на которых он не был обучен.
  • Предлагают алгоритм обучения, в котором Pepper связывает новые объекты с комбинацией классов, на которые они больше всего похожи.
  • Для речевого режима сравнивается облачное распознавание со встроенным речевым программным обеспечением. Облачная речь Google Cloud Speech способна распознавать речь в более общем плане, но требует стабильного подключения к Интернету и требует дополнительного времени обработки. Ученые комбинируют облачные и встроенные речевые системы и используем результаты последних, когда речь в облаке ненадежна или медленна в обработке.
  • Они обучают семантический синтаксический анализатор отображению распознавания команд робота и используем синтаксические распознавания из Google Speech для улучшения встроенного распознавания речи с течением времени. Даже с учетом этих улучшений они признают, что индивидуальные способы восприятия имеют свои ограничения.
  • Для повышения надежности взаимодействия человека и робота добавляются дополнительные способы ввода данных в виде интерфейса на бортовом планшете, телефонного приложения и внешних микрофонов.

Pepper отслеживает надежность входных данных для оценки вероятности ошибок при вводе данных по этому методу и активно ищет данные по различным методам, если один из них кажется некачественным. Таким образом, повышается надежность социального взаимодействия в целом. Для успешного взаимодействия Pepper должен не только чувствовать и понимать человеческий вклад, но и уметь вербализировать свой собственный опыт. В качестве шага к этой цели,  Pepper учится классифицировать предложения, которые он предпринимает для того, чтобы сформулировать их для пользователя. 

Исследователи определяют четыре основных направления исследований, имеющих отношение к данному подходу:

  • исследование роботов социальных служб,
  • совершенствование и анализ эффективности индивидуальных способов ввода данных,
  • повышение надежности за счет сочетания различных способов ввода данных, 
  • классификация и вербализация действий роботов.

Что касается индивидуальных особенностей, то значительная часть работы, связанной с компьютерным зрением и распознаванием речи, сосредоточена на разработке все более точных алгоритмов обнаружения поз, обнаружения объектов и распознавания речи. Вклад заключается в интеграции этих самых современных алгоритмов в роботизированную среду, оценке их эффективности в этой среде и повышении надежности алгоритмов для решения уникальных задач, возникающих в результате запуска этих алгоритмов на роботах, работающих в дикой природе.

В 2017 году на конкурсе RoboCup@Home команда Амстердамского университета использовала Google Cloud Speech для распознавания речи на Pepper . Как они отмечают, одним из недостатков этой платформы является невозможность ограничения пространства поиска возможных высказываний.

Исследователи преодолевают это ограничение, объединяя облачную речь с ограниченным встроенным речевым программным обеспечением и используя результаты обработки речи в облаке для обоснования соответствующих ограничений. Их работа с Pepper отличается тем, что Pepper имеет встроенный планшет, что естественно позволяет осуществлять взаимодействие с пользователем на основе экрана. Разнообразие работ свидетельствует о том, что сочетание материалов, поступающих по разным каналам, может повысить качество обработки материалов. Используются методы ввода монитора робота, и активно предлагается альтернативный метод ввода, когда робот воспринимает попытку пользователя ввести данные как ненадежную. Таким образом, этот подход переносит часть бремени, связанного с мониторингом надежности связи, с плеч человека.

Читать Часть 2