Добавить в корзинуПозвонить
Найти в Дзене
Psy Eyes

Alibaba: выпустили видеомодель Wan 2.2 14B Animate для переложения анимации на персонажей или их удаления из кадра

Alibaba: выпустили видеомодель Wan 2.2 14B Animate для переложения анимации на персонажей или их удаления из кадра. Передаются тонкие движения мимики и даже пальцев. Есть два подхода: * Режим анимации — создаёт анимированное видео с персонажем на основе предоставленной картинки и видоса с нужным движением * Режим замещения — удаляет персонажа из кадра и заменяет его на того, что в картинке, гармонично вписывая его в окружение с пересчётом освещения Comfy уже наваяли веса, а Kijai воркфлоу и GGUF для тех у кого мало VRAM. Я погонял на 4090 + 128 ГБ RAM, и вкратце сколько бы у вас их ни было оно захочет всё, что у вас есть. На дефолтных настройках, с блоксвапом при отключенном Torch Compile, видео разрешением 832х480x16 fps 49 кадров генерилось 5 минут. При этом все 24ГБ VRAM заняты и в RAM выгружаются ~60 ГБ. Итоговый результат третье видео, где уши кота прижаты, и конечности целиком не видны в кадре. Поставил 1280х720р ради интереса. Тут генка уже заняла 2 часа по сути на CPU. Сам

Alibaba: выпустили видеомодель Wan 2.2 14B Animate для переложения анимации на персонажей или их удаления из кадра. Передаются тонкие движения мимики и даже пальцев.

Есть два подхода:

* Режим анимации — создаёт анимированное видео с персонажем на основе предоставленной картинки и видоса с нужным движением

* Режим замещения — удаляет персонажа из кадра и заменяет его на того, что в картинке, гармонично вписывая его в окружение с пересчётом освещения

Comfy уже наваяли веса, а Kijai воркфлоу и GGUF для тех у кого мало VRAM. Я погонял на 4090 + 128 ГБ RAM, и вкратце сколько бы у вас их ни было оно захочет всё, что у вас есть. На дефолтных настройках, с блоксвапом при отключенном Torch Compile, видео разрешением 832х480x16 fps 49 кадров генерилось 5 минут. При этом все 24ГБ VRAM заняты и в RAM выгружаются ~60 ГБ. Итоговый результат третье видео, где уши кота прижаты, и конечности целиком не видны в кадре.

Поставил 1280х720р ради интереса. Тут генка уже заняла 2 часа по сути на CPU. Сам RAM доходил до 130 ГБ. Думается комфи обнову скоро выпустят, чтобы утихомирить потребление оперативы. Но зато экспрессия актёра передана чётче и уже пальцы видны, которые двигаются в такт с ним (второе видео). Уши правда куда-то делись, но это думается надо с параметрами поиграться и контентом.

Pika пика? Мы несколько месяцев назад удивлялись тому, как у них ловко получается заменить человека в кадре, а сейчас эти инструменты рисовой братвой активно опускаются на людской уровень. Будем наблюдать за приёмом модели сообществом. Особенно интересно увидеть работы в мультипликации.

Демо (хаггинг)

Демо (modelscope)

Анонс

Хаггинг (Comfy)

Хаггинг (Wan)

Хаггинг GGUF (Kijai)

Comfy воркфлоу

Гитхаб