Вербальная коммуникация является ключевым аспектом социального поведения человека и поэтому имеет решающее значение для взаимодействия человека и робота. Разговор позволяет передавать семантически насыщенную информацию между роботом и собеседником. Общая проблема распознавания и производства речи привела к обширным исследованиям в области информатики, искусственного интеллекта и литературы, посвященной взаимодействию человека и компьютера.
Существуют устно коммуникативные роботы для доставки закусок, в больницах, для сборки мебели, дома, в качестве секретарей. Их объединяет то, что содержание языка робота привязано к его физическому воплощению и окружению.
Речь должна быть согласована с физическим движением робота в пространстве (функциональным или экспрессивным). Роботу генерировать речь (у него есть строка текста) сравнительно просто с движками преобразования текста в речь. Распознавание речи намного сложнее, так как требует дополнительной неопределенности на входном канале (шум, акценты), выходящие за рамки семантического контента. В результате многие роботы говорят, но не понимают разговорного языка.
Ученые используют речь и изображение в качестве способов вывода, а жесты и сенсорный экран в качестве ввода. Эта асимметрия может быть проблемой в социальных отношениях между людьми и роботами, поскольку люди могут ожидать, что социальный робот, генерирующий речь, сможет распознавать речь аналогичной сложности.
Формирование вербального поведения
Существуют две основные вычислительные задачи при генерации вербального поведения для социальных роботов: генерирование содержания речи и генерирование параметров произнесения речи. Первая задача включает в себя моделирование задачи и области взаимодействия для создания содержания речи. Вторая проблема заключается в паралингвистических свойствах, координации с невербальным поведением, а также в общей синхронизации речи по отношению к другим действиям робота.
Моделирование знаний для производства речи
Содержание речи зависит от выполняемой социальной роботом задачи, а также от области или контекста. Исследователи использовали различные структуры для моделирования этих знаний при производстве речи. Примеры включают использование индивидуального варианта языка разметки искусственного интеллекта (AIML) для ответов на вопросы, или использование стандартного английского языка Attempto Controlled English (ACE).
Определение содержания речи
Ключевое отличие диалога человек-робот от общих диалоговых систем искусственного интеллекта заключается в том, что правильное воспроизведение речи зависит от физического окружения, совместной ситуации, определяемой различными датчиками, и пространственного поведения человека.
В работе роботы обращаются за помощью в случае обнаружения неисправности. Запрос помощи оптимизирован для удобства понимания человеком с использованием "обратной семантики", в которой для интерпретации запроса используется вероятностная модель человеческого процесса.
В другом примере, используется язык объяснений с целью координации сотрудничества. Сочетая признание человеческой деятельности с планировщиком коммуникаций, система определяет роль человека в сотрудничестве, а затем формирует либо самообъяснимую обратную связь, либо обратную связь о перераспределении ролей, чтобы избежать противоречивых действий.
Семантика разбора
Семантический разбор для социальных роботов более специфичен, чем общий вызов понимания языка, и часто связан с преобразованием речи в управление роботом, используя текущую задачу в качестве контекста.
Существует система, в которой люди могут использовать произвольный естественный язык для управления роботом. Человек использует обобщенные фразы, затем робот пытается прояснить эту часть, используя да-нет, "Что вы имеете в виду под..." и "Можете ли вы перефразировать...".
Ответ человека затем сливается с графиком основания, чтобы произвести соответствующее действие.
Ученые разработали систему управления роботами для выполнения сложных задач высокого уровня с использованием естественного языка путем преобразования спецификаций естественного языка в формулы линейной временной логики, которые используются для синтеза контроллеров.
Таким образом
Устная коммуникация является основным каналом общения для социальных роботов, который можно использовать. Генерирование вербального поведения сопряжено с вычислительными трудностями при определении как содержания, так и параметров подачи речи.
Исследования по генерированию речи сосредоточены на том, как представить знания для целей речевого производства, на алгоритмах оптимизации содержания речи (в частности, для пояснений и перенаправления выражений), а также на алгоритмах генерирования паралингвистических сигналов и временных параметрах, определяющих способ подачи речи.
Исследования в области понимания речи также затрагивают не только семантические аспекты взаимодействия с роботом, но и возможности и преимущества обоснованной и перенаправленной речи. Социальный робот понимает язык в физическом контексте, в который он встроен, и может использовать невербальное поведение человека, чтобы помочь понять его устные высказывания.
Во многом роботы сегодня способны генерировать более сложную речь, чем они могут распознать, и эта асимметрия является важной опорой для будущих возможностей в этом пространстве. В отличие от большого количества работ по созданию паралингвистических подсказок, существует очень мало исследований того, как эти подсказки могут быть распознаны и использованы для понимания вербального поведения.
Кроме того, необходимо дальнейшее изучение и развитие инкрементальных алгоритмов распознавания вербального поведения, так как этот навык необходим для динамической природы человеческих диалогов роботов. Признание и формирование устных высказываний - это непрерывный, тесно связанный процесс достижения взаимопонимания посредством диалога.