Tencent: выпустили в опенсорс модель для генерации говорящих голов с липсинком — Hunyuan Video-Avatar. Может работать и с пением.
Загружаем картинку + аудио длиной до 14 секунд, контекст и эмоции распознаются автоматически, далее генерим видео. Поддерживается работа с людьми и не только, обработка в разных визуальных стилях, и липсинк нескольких персонажей в кадре. Качество на выходе хорошее, рот не превращается в пиксельную кашу. На английском и китайском точно работает, про русский нигде не сказано.
Железо: минимум 24 ГБ VRAM для вывода видео в 704x768 длиной 129 fps. Но это будет очень медленно — рекомендуют 96 ГБ VRAM (говорят out of memory можно словить и на 80 ГБ VRAM). Ждём волшебных оптимизаций от Kijai и ко.
На данный момент выложен код генерации липсинк видео с одним персонажем. С несколькими выложат позже.
Демо (китайский)