Найти в Дзене
Psy Eyes

Генератор видео Wan 2.2 вышел в тираж

Генератор видео Wan 2.2 вышел в тираж. Под капотом используется MoE (mixture of experts) архитектура, которая задействует некоторое количество моделей, каждая из которых является экспертом в своей области. До этого такой подход встречался в языковых моделях. В случае с Wan экспертных модели две: высокошумные (high-noise) эксперты генерируют общую картину, а низкошумные (low-noise) эксперты обрабатывают детали. Чтобы не грузить обе модели в память, генерация идёт в два прохода: сначала одной моделью, потом другой. Поэтому не пугайтесь если у вас после одной из генераций ничего не отобразилось. Что нового: * Повысилось качество и детальность изображения * Более естественные движения объектов в кадре * Понимание киношных движений камеры, композиции, освещения, и цветокора * Улучшилось следование промту и обработка множества объектов в сцене * Тренировочный датасет с видео увеличился на 83%, а с картинками на 65% Как обычно, версия на сайте Wan будет качественно отличаться от опенсорсн

Генератор видео Wan 2.2 вышел в тираж.

Под капотом используется MoE (mixture of experts) архитектура, которая задействует некоторое количество моделей, каждая из которых является экспертом в своей области. До этого такой подход встречался в языковых моделях.

В случае с Wan экспертных модели две: высокошумные (high-noise) эксперты генерируют общую картину, а низкошумные (low-noise) эксперты обрабатывают детали. Чтобы не грузить обе модели в память, генерация идёт в два прохода: сначала одной моделью, потом другой. Поэтому не пугайтесь если у вас после одной из генераций ничего не отобразилось.

Что нового:

* Повысилось качество и детальность изображения

* Более естественные движения объектов в кадре

* Понимание киношных движений камеры, композиции, освещения, и цветокора

* Улучшилось следование промту и обработка множества объектов в сцене

* Тренировочный датасет с видео увеличился на 83%, а с картинками на 65%

Как обычно, версия на сайте Wan будет качественно отличаться от опенсорсной. Её можно пощупать на сайте на халяву в relax mode, за кредиты, или по API вызовам в Comfy.

Кстати Wan запустили творческий конкурс Wan Muse с денежными призами. Тоже варик пощупать модель вплотную.

В опенсорс ушли две модели: 5B и 14B.

Модель 5B идёт одним файлом, генерит и по тексту и по картинкам, и благодаря эффективному сжатию данных может влезть в 8 ГБ VRAM, хотя способна на 720p в 24 fps вмещаясь в 24 ГБ VRAM.

Модель 14B идёт отдельно в t2i версии со своей high-noise и low-noise экспертными моделями, и отдельно в i2i версии с такими же экспертными моделями. Тут уже в 24 ГБ VRAM можно поместиться только с ощутимой выгрузкой в RAM, или генеря на малых разрешениях.

Я начал тестить на 4090 + 128 ГБ VRAM, но пока результаты очень сильно прыгают. Наберу больше данных для ревью — обращу их в пост. В целом оно хочет весь VRAM, RAM и прочий SRAM, который можно было бы ей скормить.

Comfy уже организовали поддержку нового Wan, на гитхабе обновили билд, и выложили на хаггинг разные версии моделей.

Kijai активно обновляет на гитхабе ноды и уже наваял fp8 веса для 14B.

Будем наблюдать за оптимизациями, модификациями сообщества, и лорами. Интересно будет натренировать эту модель на своих фото, как я уже делал с предыдущим Wan.

Демо 5B (Хаггинг)

Сайт

Анонс

Comfy

Хаггинг (Wan)

Хаггинг (Comfy)

Хаггинг (Kijai)

Гитхаб (Wan)

Гитхаб (Kijai)

WanGP (гитхаб)

WanGP (Pinokio)