89 подписчиков

Tencent: выпустили в опенсорс модель для генерации говорящих голов с липсинком — Hunyuan Video-Avatar

29 мая29 мая

~1 мин

Tencent: выпустили в опенсорс модель для генерации говорящих голов с липсинком — Hunyuan Video-Avatar. Может работать и с пением.

Загружаем картинку + аудио длиной до 14 секунд, контекст и эмоции распознаются автоматически, далее генерим видео. Поддерживается работа с людьми и не только, обработка в разных визуальных стилях, и липсинк нескольких персонажей в кадре. Качество на выходе хорошее, рот не превращается в пиксельную кашу. На английском и китайском точно работает, про русский нигде не сказано.

Железо: минимум 24 ГБ VRAM для вывода видео в 704x768 длиной 129 fps. Но это будет очень медленно — рекомендуют 96 ГБ VRAM (говорят out of memory можно словить и на 80 ГБ VRAM). Ждём волшебных оптимизаций от Kijai и ко.

На данный момент выложен код генерации липсинк видео с одним персонажем. С несколькими выложат позже.

Демо (китайский)

Сайт

Гитхаб

Хаггинг