HuMo
Есть такая open-source модель от ByteDance, умеет управлять живыми персонажами сразу по трем каналам: текст, изображение и аудио. И синхронно контролировать позу, эмоции, содержание и лип-синк.
На выходе ролики до 1080p при 30/60 fps с устойчивым обликом героя в разных ракурсах и сценах; можно генерировать как портреты, так и динамичные сюжеты с несколькими людьми. Липсинк и мимика идут вровень с озвучкой.
Подходит для говорящих голов, рекламы и обучения, коротких креативов и танцевальных сцен, сейчас демо ограничены ~8 секундами, но обещают расширение.
Репозиторий открыт на Hugging Face под Apache 2.0, есть готовые workflow для ComfyUI; внутри визуальный генератор на базе Wan2.1 и аудио-энкодер на Whisper, крупная конфигурация до 17B параметров.
Если хочется управляемых персонажей без ручной анимации, то самое время попробовать.
#videoGenerative@TochkiNadAI