Новая разработка под названием Wav2Lip-Emotion умеет копировать эмоциональную мимику человека из одного фрагмента ролика, чтобы вставлять ее в другом месте.
Американские разработчики представили инновационную технологию машинного обучения, с помощью которой можно корректировать мимическое выражение лица в видеозаписях на какую угодно эмоцию. Для этого создателям новинки под названием Wav2Lip-Emotion пришлось приспособить такие недавние разработки, как синхронизатор движения губ с дубляжем на иностранном языке.
Создателями этой интересной новинки являются разработчики из двух команд в США – Бостонского университета и Массачусетского технологического института. Несмотря на то, что сами авторы новинки говорят о необходимости ее дальнейшей доработки, их детище стало мировым первенцем в изменении эмоций в видео с применением нейронной сети.
Желающие получить более подробную техническую информацию об американской новинке могут ознакомиться с ней на портале GitHub.
Теоретическая основа новой разработки базируется на полноценном обучении моделей, в котором применяются традиционные репозитории дипфейков (например, DeepFaceLab и FaceSwap). При этом характерно, что новинка позволяет оперировать мимикой произвольного человека, а не той личности, что фигурирует в видеозаписи. Как следствие, появилась возможность создавать новую внешность с заданной вами мимикой и эмоциями на лице (их сыграть может актер, да и вообще кто угодно). Мало того, небывало достоверным этот дипфейк помогает сделать программа имитации нужного голоса.
Программа Wav2Lip-Emotion уже вполне уверенно умеет копировать эмоции и переставлять их в другие фрагменты записей, сохраняя при этом исходную мимику, что позволяет гибко и удобно работать с выражением лиц.