Найти в Дзене
Psy Eyes

Меня тут недавно близкие люди попросили сгенерировать с их лицами видео-поздравление друга с Днём Рождения

Меня тут недавно близкие люди попросили сгенерировать с их лицами видео-поздравление друга с Днём Рождения. В рамках торжественного мероприятия на экране будут показываться видео-открытки, и нужно, чтобы их поздравление выделялось из массы. На всё про всё 1-2 дня. Сразу запросил с них фотки тела и лица с разных сторон, плюс аудио с поздравительной речью. Я как раз хотел потестить HuMo, в котором на основе фото и аудио можно сгенерить видео целевого человека сразу с липсинком. Тренировать Wan как я делал с собой мы не успели бы. Включил на компе Comfy, выбрал из шаблонов воркфлоу Humo, скачал у Kijai веса на 14B версию модели, и начал тестить. Сеттинг, в который их можно вписать — любой. Пробовали вампирский, Бэтмен и Женщина-кошка, итд. Решили остановиться на рыцарской тематике, и в конце скорректировались на королевскую знать. Если в кадре 2 человека, HuMo будет пытаться сделать так, чтобы оба персонажа говорили (см. второе видео). Даже, если в промтах указано конкретно кто должен

Меня тут недавно близкие люди попросили сгенерировать с их лицами видео-поздравление друга с Днём Рождения. В рамках торжественного мероприятия на экране будут показываться видео-открытки, и нужно, чтобы их поздравление выделялось из массы.

На всё про всё 1-2 дня. Сразу запросил с них фотки тела и лица с разных сторон, плюс аудио с поздравительной речью. Я как раз хотел потестить HuMo, в котором на основе фото и аудио можно сгенерить видео целевого человека сразу с липсинком. Тренировать Wan как я делал с собой мы не успели бы.

Включил на компе Comfy, выбрал из шаблонов воркфлоу Humo, скачал у Kijai веса на 14B версию модели, и начал тестить.

Сеттинг, в который их можно вписать — любой. Пробовали вампирский, Бэтмен и Женщина-кошка, итд. Решили остановиться на рыцарской тематике, и в конце скорректировались на королевскую знать.

Если в кадре 2 человека, HuMo будет пытаться сделать так, чтобы оба персонажа говорили (см. второе видео). Даже, если в промтах указано конкретно кто должен произносить реплику. Но это решаемо.

На удивление fp8 веса даже по старым фоткам хорошо уловили лица. В дефолтном воркфлоу модель работает с лайт лорой в 6 шагов. На один шаг 720p видео 24 fps уходит ~1 минута или 6 минут на сгенерированное видео. 19 ГБ загружается в VRAM, остальные 31 ГБ идут в RAM.

Веса fp16 вместе с более качественной картинкой почему-то и сильно меняют лицо. Не говоря уже о том, что на одно видео уходит значительно больше времени.

В итоге я нагенерил и расшарил много разных вариантов. Близкие и поржали, ибо это весело, и задачку решили, получив нужный видос.

Да, липсинк на русском не всегда точно попадает в губы и местами чувствуется "англоязычность" мимики + может присутствовать небольшой рассинхрон аудио с видео, который за секунду лечится в давинчи (а может и на уровне кода). Также для улучшения конечного лица на видео можно использовать дипфейк или Wan, но это уже другие сроки и противоречило цели эксперимента получить нужный результат здесь и сейчас без тренировки.

Так что будем за HuMo наблюдать. Они там должны скоро выпустить гайд с лучшими практиками по использованию и чекпоинт на стабильную генерацию длиннее 5 секунд.

Демо (Хаггинг)

Гитхаб