Найти тему

Речевая и визуальная коммуникация робота Geminoid

Оглавление

На сегодняшний день проблема взаимодействия человека и робота рассматривается во многих исследованиях. Компоненты или методы, такие как речь, жесты, взгляд и другие, используются для облегчения естественного взаимодействия человека c роботом.

Особое внимание уделено проектированию и разработке человекоподобных роботов. Робот Geminoid HI-1, разработанный в лаборатории интеллектуальной робототехники и связи, представляет собой антропоморфного робота с телеуправлением, который является дубликатом существующего человека.

Поскольку речь является наиболее естественной формой общения человека, во взаимодействии с роботом важную роль играет и речевая коммуникация. В дополнение к аудио речи, коммуникация также осуществляется движениями губ Geminoid.

https://flickr.com/photos/geminoid/7586897060
https://flickr.com/photos/geminoid/7586897060

Робот Geminoid HI-1

Geminoid - это робот, созданный для того, чтобы воссоздать двойника настоящего человека. Его терминология происходит от латинского слова "geminus", что означает близнец и "oides", означающий сходство. Антропоморфные роботы, такие как Geminoid, разработаны, чтобы быть очень похожими на реальных людей с такими характеристиками, как искусственная кожа и волосы, и управляются с помощью компьютерной системы, которая воспроизводит движения лица оператора в роботе.

В роботе Geminoid HI-1, структура роботизированного элемента идентична структуре предыдущих роботов-гуманоидов. Особые усилия сосредоточены на проектировании робота, который должен стать копией оригинала.

Силиконовая кожа вылеплена слепком, взятым у оригинального человека, а регулировка формы и текстуры кожи окрашены вручную на основе сканирования и фотографий.

Пятьдесят пневматических приводов приводят робота в движение для создания плавных и бесшумных движений. 50 приводов были предназначены для эффективного отображения движений, необходимых для взаимодействия с человеком, а также для выражения индивидуальных особенностей оригинала. Тринадцать исполнительных механизмов встроены в лицо, 15 - в туловище, а остальные 22 перемещают руки и ноги.

Non-Audible Murmur (NAM)

Система Non-Audible Murmur (NAM) относится к очень мягко произнесенной речи, полученной через ткани тела. За ухом собеседника установлен специальный акустический датчик. Он получает очень тихие звуки, которые не слышны другим слушателям, находящимся в непосредственной близости от собеседника.

Микрофон NAM - это высокочувствительный микрофон, обернутый в кремний (используется кремний, поскольку его импеданс аналогичен импедансу человеческой кожи).

Речь, принимаемая микрофоном NAM, имеет различные спектральные характеристики по сравнению с нормальной речью. В частности, речь NAM показывает ограниченное высокочастотное содержимое из-за передачи по телу.

Микрофон NAM также может использоваться для приема слышимой речи непосредственно из корпуса. Это позволяет осуществлять автоматическое распознавание речи обычным способом, пользуясь при этом надежностью NAM в условиях шума.

Разборчивость и естественность речи Geminoid

Речь может быть оценена на основе разборчивости, естественности и пригодности для конкретного применения. Четкость речи является мерой того, насколько хорошо речь может быть понята, и отличается от естественности речи.

В зависимости от области применения, разборчивость и естественность звука являются наиболее важными параметрами. Например, для слепых разборчивость речи с высокими баллами важнее естественности речи. Другие приложения (например, мультимедийные приложения), напротив, требуют речи с высокой степенью естественности.

Четкость речи может быть оценена субъективно или объективно. В случае субъективной оценки разборчивость речи измеряется с помощью субъективных аудиотестов, основанных на человеческом восприятии.

Наборы ответов обычно представляют собой слоги, слова или предложения. Тестовые наборы обычно фокусируются на согласных, потому что согласные играют более важную роль в понимании речи, чем гласные.

Контроль движений губ Geminoid

Со стороны оператора, извлечение формантов сначала производится по входному речевому сигналу. Затем координаты пространства формата, заданные первым и вторым формантами, переводятся в центр пространства гласных динамика (с помощью графического интерфейса пользователя), чтобы учесть различия в пространстве гласных в зависимости от их характеристик, таких как пол, возраст и рост.

На новых координатах реализовано вращение на 25 градусов, чтобы ось лучше соответствовала высоте губ. Хотя ширину губы также можно оценить по нормализованному пространству гласных, здесь регулируется только высота губы в связи с физическими ограничениями робота.

Расчетная высота кромки затем преобразуется в команды электропривода с помощью линейного масштабирования. Аудио пакеты и команды управления посылаются удаленному роботу с интервалом в 20 мс.

Со стороны робота принимаются аудио пакеты и команды управления движением губы, команды управления передаются роботу для перемещения губы, а задержка контролируется для воспроизведения полученных аудио пакетов и для синхронизации двух потоков.

https://flickr.com/photos/geminoid/10990430715
https://flickr.com/photos/geminoid/10990430715

Движения губ робота Geminoid влияют на показатели восприятия. При взаимодействии с Geminoid как в чистой, так и в шумной среде, чистая речь оператора может быть лучше понята при наблюдении движения лица и губ робота Geminoid. Это явление очень похоже на явление, возникающее в человеческом общении.