17 подписчиков

HuMo

9 октября9 окт

~1 мин

HuMo

Есть такая open-source модель от ByteDance, умеет управлять живыми персонажами сразу по трем каналам: текст, изображение и аудио. И синхронно контролировать позу, эмоции, содержание и лип-синк.

На выходе ролики до 1080p при 30/60 fps с устойчивым обликом героя в разных ракурсах и сценах; можно генерировать как портреты, так и динамичные сюжеты с несколькими людьми. Липсинк и мимика идут вровень с озвучкой.

Подходит для говорящих голов, рекламы и обучения, коротких креативов и танцевальных сцен, сейчас демо ограничены ~8 секундами, но обещают расширение.

Репозиторий открыт на Hugging Face под Apache 2.0, есть готовые workflow для ComfyUI; внутри визуальный генератор на базе Wan2.1 и аудио-энкодер на Whisper, крупная конфигурация до 17B параметров.

Если хочется управляемых персонажей без ручной анимации, то самое время попробовать.

#videoGenerative@TochkiNadAI