Найти в Дзене
88 подписчиков

Alibaba: выпустили Wan 2.1 VACE — единую модель для контролируемой генерации видео. До этого выходила превью версия и вариант под LTX.


Функционал:
* R2V (Reference-to-Video) — вписывание объекта или персонажа с референса в видео
* MV2V (Masked Video-to-Video) — выделение областей маской для их изменения или удаления
* Смена стиля через vid2vid
* Расширение кадра через outpaint
* Увеличение длины видео
* Контроль движения скетчем/позой/глубиной
* Колоризация

Это всё можно комбинировать.

Модель есть в размерах от 1.3B, которая должна легко запуститься на массовом железе, и подойдёт для набросков, мудбордов, анимации. До 14B, которая даёт хорошее качество, но запускать нужно с выгрузкой в RAM или квантизацией, чтобы впихнуть в 24 ГБ VRAM.

Kijai уже наваял веса и обновил ноды, враппер для Wan, и воркфлоу для Comfy.

Я потестил на 4090 и 128 ГБ RAM. В воркфлоу есть много оптимизаций, но даже так нужно постараться запустить без проблем. Пробовал до этого на Wan F2FL ноду VRAM Management для агрессивной выгрузки в RAM и помогало, но тут выдаёт ошибку мол модель должна быть на одном и том же девайсе (CPU или CUDA) и игры с параметрам не помогают.

Подрубил вместо неё BlockSwap для выгрузки блоков трансформера в оперативку, и тогда запустилось. Кстати в ноде WanVideo VACE Model Select выбирайте модель VACE 1.3B или 14B для контроля, а в WanVideo Model Loader выбирайте соответствующую базовую t2v версию такого же размера, а не VACE и там и там, иначе будет ошибка.

1.3B генерит R2V видео 480p где-то 4 минуты, а дефолтные 512х512 минуты 2-3. С Fast FP16 плюс TeaCache можно ещё ускорить ощутимо. Оптимизатор Torch Compile позже опробую на поставленной Ubuntu.

14B по рефу и глубине генерила те же дефолтные 512х512 уже чуть больше часа. И это с включённым TeaCache. Качество ок, порадовало, что текст на футболке сохранился. На больших разрешениях пока запустить не удалось даже с ограничением количества кадров (frame load cap). Так что, если bf16 веса модели у вас при 24ГБ VRAM не запускаются, пробуйте fp8.

Демо (1.3B модель)
В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть
Alibaba: выпустили Wan 2.1 VACE — единую модель для контролируемой генерации видео. До этого выходила превью версия и вариант под LTX.
01:06
1 минута