На сегодняшний день проблема взаимодействия человека и робота рассматривается во многих исследованиях. Компоненты или методы, такие как речь, жесты, взгляд и другие, используются для облегчения естественного взаимодействия человека c роботом.
Особое внимание уделено проектированию и разработке человекоподобных роботов. Робот Geminoid HI-1, разработанный в лаборатории интеллектуальной робототехники и связи, представляет собой антропоморфного робота с телеуправлением, который является дубликатом существующего человека.
Поскольку речь является наиболее естественной формой общения человека, во взаимодействии с роботом важную роль играет и речевая коммуникация. В дополнение к аудио речи, коммуникация также осуществляется движениями губ Geminoid.
Робот Geminoid HI-1
Geminoid - это робот, созданный для того, чтобы воссоздать двойника настоящего человека. Его терминология происходит от латинского слова "geminus", что означает близнец и "oides", означающий сходство. Антропоморфные роботы, такие как Geminoid, разработаны, чтобы быть очень похожими на реальных людей с такими характеристиками, как искусственная кожа и волосы, и управляются с помощью компьютерной системы, которая воспроизводит движения лица оператора в роботе.
В роботе Geminoid HI-1, структура роботизированного элемента идентична структуре предыдущих роботов-гуманоидов. Особые усилия сосредоточены на проектировании робота, который должен стать копией оригинала.
Силиконовая кожа вылеплена слепком, взятым у оригинального человека, а регулировка формы и текстуры кожи окрашены вручную на основе сканирования и фотографий.
Пятьдесят пневматических приводов приводят робота в движение для создания плавных и бесшумных движений. 50 приводов были предназначены для эффективного отображения движений, необходимых для взаимодействия с человеком, а также для выражения индивидуальных особенностей оригинала. Тринадцать исполнительных механизмов встроены в лицо, 15 - в туловище, а остальные 22 перемещают руки и ноги.
Non-Audible Murmur (NAM)
Система Non-Audible Murmur (NAM) относится к очень мягко произнесенной речи, полученной через ткани тела. За ухом собеседника установлен специальный акустический датчик. Он получает очень тихие звуки, которые не слышны другим слушателям, находящимся в непосредственной близости от собеседника.
Микрофон NAM - это высокочувствительный микрофон, обернутый в кремний (используется кремний, поскольку его импеданс аналогичен импедансу человеческой кожи).
Речь, принимаемая микрофоном NAM, имеет различные спектральные характеристики по сравнению с нормальной речью. В частности, речь NAM показывает ограниченное высокочастотное содержимое из-за передачи по телу.
Микрофон NAM также может использоваться для приема слышимой речи непосредственно из корпуса. Это позволяет осуществлять автоматическое распознавание речи обычным способом, пользуясь при этом надежностью NAM в условиях шума.
Разборчивость и естественность речи Geminoid
Речь может быть оценена на основе разборчивости, естественности и пригодности для конкретного применения. Четкость речи является мерой того, насколько хорошо речь может быть понята, и отличается от естественности речи.
В зависимости от области применения, разборчивость и естественность звука являются наиболее важными параметрами. Например, для слепых разборчивость речи с высокими баллами важнее естественности речи. Другие приложения (например, мультимедийные приложения), напротив, требуют речи с высокой степенью естественности.
Четкость речи может быть оценена субъективно или объективно. В случае субъективной оценки разборчивость речи измеряется с помощью субъективных аудиотестов, основанных на человеческом восприятии.
Наборы ответов обычно представляют собой слоги, слова или предложения. Тестовые наборы обычно фокусируются на согласных, потому что согласные играют более важную роль в понимании речи, чем гласные.
Контроль движений губ Geminoid
Со стороны оператора, извлечение формантов сначала производится по входному речевому сигналу. Затем координаты пространства формата, заданные первым и вторым формантами, переводятся в центр пространства гласных динамика (с помощью графического интерфейса пользователя), чтобы учесть различия в пространстве гласных в зависимости от их характеристик, таких как пол, возраст и рост.
На новых координатах реализовано вращение на 25 градусов, чтобы ось лучше соответствовала высоте губ. Хотя ширину губы также можно оценить по нормализованному пространству гласных, здесь регулируется только высота губы в связи с физическими ограничениями робота.
Расчетная высота кромки затем преобразуется в команды электропривода с помощью линейного масштабирования. Аудио пакеты и команды управления посылаются удаленному роботу с интервалом в 20 мс.
Со стороны робота принимаются аудио пакеты и команды управления движением губы, команды управления передаются роботу для перемещения губы, а задержка контролируется для воспроизведения полученных аудио пакетов и для синхронизации двух потоков.
Движения губ робота Geminoid влияют на показатели восприятия. При взаимодействии с Geminoid как в чистой, так и в шумной среде, чистая речь оператора может быть лучше понята при наблюдении движения лица и губ робота Geminoid. Это явление очень похоже на явление, возникающее в человеческом общении.