Найти в Дзене
Psy Eyes

Бесшовные длинные видео

Бесшовные длинные видео. Smooth Travel: у генераторов ваяющих видосы по двум кадрам есть проблема, что стык виден по цветам, подводящему движению, и паузе на месте шва. Котаны с Banodoco, а именно его основатель Pom, сделал воркфлоу Smooth Travel для плавного перехода между ключевыми кадрами без этого косяка. Работает на базе его же аниматора картинок Steerable Motion, для которого есть ноды в Comfy. Открывам воркфлоу, закидываем 7 изображений, пишем промт, выбираем нужные параметры и генерим. По ходу пьесы получаем 7 видео фрагментов, которые в конце объединяются в одно. Воркфлоу по умолчанию настроен в 8 шагов генерить крупными 14B версиями Wan и VACE, но можно использовать и 1.3B. На удивление весьма неплохо выходит по качеству, если отключить TeaCache (для этой модели он и ни к чему). 14B очень хорошо сохраняет и дорисовывает детали. Между fp8 и fp16 разницы по скорости почти нет 57 сек/шаг против 58 сек/шаг ибо много обработки перекладывается на RAM, а по качеству она видна в

Бесшовные длинные видео.

Smooth Travel: у генераторов ваяющих видосы по двум кадрам есть проблема, что стык виден по цветам, подводящему движению, и паузе на месте шва.

Котаны с Banodoco, а именно его основатель Pom, сделал воркфлоу Smooth Travel для плавного перехода между ключевыми кадрами без этого косяка.

Работает на базе его же аниматора картинок Steerable Motion, для которого есть ноды в Comfy. Открывам воркфлоу, закидываем 7 изображений, пишем промт, выбираем нужные параметры и генерим. По ходу пьесы получаем 7 видео фрагментов, которые в конце объединяются в одно.

Воркфлоу по умолчанию настроен в 8 шагов генерить крупными 14B версиями Wan и VACE, но можно использовать и 1.3B. На удивление весьма неплохо выходит по качеству, если отключить TeaCache (для этой модели он и ни к чему). 14B очень хорошо сохраняет и дорисовывает детали. Между fp8 и fp16 разницы по скорости почти нет 57 сек/шаг против 58 сек/шаг ибо много обработки перекладывается на RAM, а по качеству она видна в детализации (нет пожатости).

FPS дефолтно стоит на 8, потому что сгенерившиеся фрагменты в конце с помощью FILM VFI интерполируются в 2 раза (или как сам поставишь) и сшиваются в итоговое видео. Я попробовал разный фреймрейт, не увидел сильной разницы по потреблению VRAM и оставил везде 24 fps, отключив интерполяцию. Что ещё дало и прирост скорости, ибо не нужно было ждать пока кадры соединятся и кэш отчистится.

Далее тесты на 4090 + 128 ГБ RAM, PyTorch 2.7, CUDA 12.9.

1.3B (fp16) скорость и потребление:

512х512, хрон 61 кадр, 8 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF, FLIM VFI ON === 213 сек (3,5 мин) // 6,5 ГБ VRAM

512х512, хрон 61 кадр, 24 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF === 115 сек (2 мин) // 6,5 ГБ VRAM

1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 13 сек/шаг, TeaCache OFF, BlockSwap OFF === 814 сек (13,5 мин) // 15,2 ГБ VRAM

1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 8,6 сек/шаг, TeaCache ON, BlockSwap OFF === 723 сек (12 мин) // 15,2 ГБ VRAM

14B (fp8) скорость и потребление:

512х512, хрон 61 кадр, 24 fps, 8 шагов, 6,5 сек/шаг, TeaCache OFF, BlockSwap OFF === 424 сек (7 мин) // 24 ГБ VRAM // 65 ГБ RAM

1024x1024, хрон 61 кадр, 24 fps, 8 шагов, 57 сек/шаг, TeaCache OFF, BlockSwap 25 Wan / 5 VACE === 2956 сек (49 мин) // 24 ГБ VRAM // 80 ГБ RAM

14B (fp16) скорость и потребление:

512х512, хрон 61 кадр, 24 fps, 8 шагов, 9 сек/шаг, TeaCache OFF, BlockSwap 15 Wan / 5 VACE === 497 сек (8 мин) // 24 ГБ VRAM // 85 ГБ RAM

1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 58 сек/шаг, TeaCache OFF, BlockSwap 30 Wan / 5 VACE === 3015 сек (50 мин) // 24 ГБ VRAM // 117 ГБ RAM

Каждый сгенерированный фрагмент съедает пару гигов RAM. Энергопотребление в моменте подлетает до 547 Вт.

Без BlockSwap запустить fp16 и частично fp8 не получалось, упиралось в VRAM. На дефолтных BlockSwap перекладывает 40 Wan и 5 VACE блоков трансформера с обработки видеопамятью на процессор и оперативку. Так он будет занимать 19 ГБ VRAM плюс 79 ГБ RAM.

Уменьшив количество блоков до 30 удалось загрузить VRAM до 24 ГБ, освободить оперативку до 69 RAM ибо оно в конце пиканёт до 117 ГБ, и получить ускорение в 2 секунды (58 сек против 56 сек), хотя от доп 5 ГБ VRAM ожидаешь большего. На этих настройках удалось получить максимальное качество в fp16, 1024х1024, 24 fps.

Стоит ещё поиграться с ускорялками помимо TeaCache. Fast fp16 тут работает и ускоряет 1.3b 512x512 с 1,3 сек до 1 сек без потери качества. Подрубить Torch Compile, пишут 30% буст должен быть. Посмотреть на разницу в замене блоков VACE на RAM. И там ещё в опциях новый тип внимания Flex Attention, который стоит затестить.

Из проявившихся проблем:

* Если картинки заметно отличаются, то могут быть видны логические блоки внутри цельного видео.

* Движения персонажа могут занимать больше времени , чем они должны. Чтобы это нивелировать вероятно придётся играться с длительностью и фреймретом.

Кстати разные ракурсы с котом я сгенерил халявными кредитами в Kontext на сайте BFL, и пока я тестил этот воркфлоу вышел в опенсорс Kontext Dev. Время тестов!

Comfy воркфлоу

Дискорд