Добавить в корзинуПозвонить
Найти в Дзене

Губы, которые не врут. Обучение реалистичным движениям губ для человекоподобных роботов.

Движения губ имеют огромное значение в человеческом общении, привлекая почти половину нашего визуального внимания во время разговора. Однако антропоморфные роботы часто не могут достичь синхронизации губ и звука, что приводит к неуклюжим и безжизненным движениям губ. В основе этой проблемы лежат два фундаментальных барьера. Во-первых, роботизированным губам, как правило, не хватает механической сложности, необходимой для воспроизведения тонких движений человеческого рта; во-вторых, существующие методы синхронизации зависят от вручную заданных движений и правил, что ограничивает адаптивность и реализм. В работе, представленной в научном журнале Science описывается процесс обучения с участием людей. Проводилась оценка с участием людей, используя Amazon SageMaker AI, сервис, предоставляемый Amazon
Web Services (AWS), для оценки синхронизации движений губ и речи. Таким образом, цель состояла не столько в том, чтобы доказать, что движения губ робота достигли определенного уровня реализм

Движения губ имеют огромное значение в человеческом общении, привлекая почти половину нашего визуального внимания во время разговора. Однако антропоморфные роботы часто не могут достичь синхронизации губ и звука, что приводит к неуклюжим и безжизненным движениям губ.

https://www.science.org
https://www.science.org

В основе этой проблемы лежат два фундаментальных барьера.

Во-первых, роботизированным губам, как правило, не хватает механической сложности, необходимой для воспроизведения тонких движений человеческого рта; во-вторых, существующие методы синхронизации зависят от вручную заданных движений и правил, что ограничивает адаптивность и реализм.

В работе, представленной в научном журнале Science описывается процесс обучения с участием людей. Проводилась оценка с участием людей, используя Amazon SageMaker AI, сервис, предоставляемый Amazon
Web Services (AWS), для оценки синхронизации движений губ и речи. Таким образом, цель состояла не столько в том, чтобы доказать, что движения губ робота достигли определенного уровня реализма, сколько в том,
чтобы определить, представляет ли механизм генерации движений губ прогресс по сравнению с более простыми базовыми подходами, что является шагом в правильном направлении.

Человекоподобное лицо робота, разработанное для преодоления этих ограничений, с мягкими силиконовыми губами, приводимыми в движение механизмом с 10 степенями свободы. Для достижения синхронизации губ без предопределенных движений использовали конвейер самообучения на основе вариационного автокодировщика (VAE) в сочетании с преобразователем лицевых действий, что позволяет роботу автономно определять более реалистичные траектории губ непосредственно из речевого звука.

-2

Экспериментальные результаты показывают, что этот метод превосходит простые эвристики, такие как базовые линии на основе амплитуды, в достижении более визуально согласованной синхронизации губ и звука. Кроме того, освоенная синхронизация успешно обобщается на различные лингвистические контексты, позволяя роботу артикулизировать речь на 10 языках, которые не встречались во время обучения.