Группа исследователей разработала и выпустила новую глубокую нейронную сеть, которая может конвертировать видео-и аудиосигнал в синхронизированное по губам видео.
В их недавней статье исследователи исследуют проблему синхронизации губ говорящего человека на видео, где цель состоит в том, чтобы речь соответствовала движению губ и выражению лица человека. Они утверждают, что существующие подходы и модели с трудом дают удовлетворительные результаты, и объясняют это двумя выявленными причинами.
- Первая причина заключается в неадекватных функциях потерь, которые были использованы при обучении этих моделей (например, функция реконструкции L1 и потеря дискриминанта Липгана)
- Вторая причина - в плохо обученной дискриминантной сети с зашумленными данными.
Чтобы преодолеть эти проблемы, исследователи предлагают подход, в котором они разделяют проблему обучения и структуру обучения на два основных компонента: обучение точной синхронизации губ путем введения потери синхронизации и обучение генерированию качественных визуальных результатов с помощью визуального дискриминатора качества.
Для первой части они используют уже проверенную "экспертную" модель-SyncNet, которая была построена для исправления ошибок синхронизации губ. Эта модель была точно настроена с помощью сгенерированных видео лица, чтобы еще больше повысить ее точность и стабильность. Схему предлагаемой структуры можно увидеть на рисунке ниже.
Исследователи обучили предложенную модель на одном наборе данных-LRS2, но протестировали ее с использованием 3 дополнительных наборов данных. Результаты показывают, что новая модель Wav2Lip значительно превосходит все существующие модели.
"Наша новая модель Wav2Lip обеспечивает значительно более точную синхронизацию губ в динамических, непринужденных видеороликах с говорящими лицами. Количественные показатели показывают, что синхронизация губ в наших сгенерированных видео почти так же хороша, как и в реальном времени."
Реализация метода имеет открытый исходный код. Более подробно о методе и экспериментах можно прочитать в статье или на официальном сайте проекта.