Приветствую!
Введение
Wan 2.1 — это открытая модель генерации видео, разработанная Alibaba, которая поддерживает задачи, такие как text-to-video, image-to-video, редактирование видео и другие. Она доступна в версиях с различным количеством параметров (1.3B и 14B) и может быть оптимизирована с помощью формата GGUF и квантизации для снижения потребления VRAM. В данном обзоре мы подробно рассмотрим потребление VRAM для разных версий и длину видео, генерируемого на разрешениях 480p и 720p.
Потребление VRAM в оригинальных версиях
Исследования показывают, что оригинальная модель 1.3B требует около 8.19 ГБ VRAM на GPU RTX 4090 с оптимизациями, такими как --offload_model True --t5_cpu, что делает её совместимой с большинством потребительских GPU. Для 14B модели потребление VRAM составляет около 23.81 ГБ на той же конфигурации, что требует более мощного оборудования.
Эти данные взяты из тестов, проведённых на GitHub странице модели Wan2.1 GitHub Page, где представлены результаты в формате "Общее время (с) / Пик памяти GPU (ГБ)". Таблица ниже иллюстрирует эти данные:
Потребление VRAM в GGUF и квантизированных версиях
Формат GGUF и квантизация позволяют значительно снизить потребление VRAM, особенно для моделей с меньшим количеством параметров. GGUF — это формат хранения моделей, оптимизированный для быстрой загрузки и инференса, часто используемый с квантизацией для снижения памяти. Квантизация варьируется от Q2 (2-бит, низкая точность) до Q8 (8-бит, высокая точность).
На основе анализа, для 1.3B модели:
Q8: Размер файла модели около 1.3 ГБ (1 байт на параметр), общий расход VRAM, включая активации, оценивается в 7-8 ГБ.
Q4: Размер файла около 0.65 ГБ (0.5 байта на параметр), общий расход около 6-7 ГБ.
Q3: Размер файла около 0.49 ГБ (0.375 байта на параметр), общий расход около 5-6 ГБ.
Q2: Размер файла около 0.325 ГБ (0.25 байта на параметр), общий расход около 4-5 ГБ.
Для 14B модели аналогично:
Q8: Размер файла около 14 ГБ, общий расход около 20-25 ГБ.
Q4: Размер файла около 7 ГБ, общий расход около 15-20 ГБ.
Q3: Размер файла около 5.25 ГБ, общий расход около 12-15 ГБ.
Q2: Размер файла около 3.5 ГБ, общий расход около 10-12 ГБ.
Длина видео
Стандартная длина видео для Wan 2.1 в режимах text-to-video и image-to-video на разрешениях 480p и 720p составляет 5 секунд. Теоретически, модель может генерировать видео большей длины, но это зависит от доступных вычислительных ресурсов и времени обработки.
Практика
Чтобы вообще начать работу сначала нужно привести в порядок ComfyUI и разобраться что вы хотите генерировать.
1. Обновляем ComfyUI
Перед тем как настраивать Wan2.1, убедись, что у тебя стоит свежая версия ComfyUI. Если не уверен — обнови по этому гайду.
2. Устанавливаем модели диффузии
Теперь загрузим diffusion-модели. Они находятся здесь.
Как выбрать нужную?
- i2v — для конверсии изображений в видео.
- t2v — для генерации видео из текста.
- 14B / 1.3B — количество параметров (чем больше, тем выше требования к железу).
- bf16 / fp16 / fp8 — уровень точности (чем выше, тем лучше качество, но тем больше нагрузка на железо, fp8 — самый лёгкий вариант).
Выбрал? Скачай и помести файлы в папку ComfyUI/models/diffusion_models.
3. Подключаем текстовые энкодеры
Скачай umt5_xxl_fp8_e4m3fn_scaled.safetensors отсюда:
Закинь в ComfyUI/models/text_encoders.
4. Устанавливаем CLIP Vision
Для работы с визуальными входными данными нужен CLIP Vision. Вот нужная модель:
Сохранить в ComfyUI/models/clip_vision.
5. Добавляем VAE для Wan2.1
Чтобы получить финальный штрих в качестве изображения, нужен VAE. Вот он:
Сохранить в ComfyUI/models/vae.
Wan2.1 Image-to-Video Workflow 720p
Этот процесс превращает изображения в видео в качестве 720p. Есть два варианта воркфлоу: различаются только моделью диффузии и разрешением итогового видео. Можно использовать любой из предложенных или настроить параметры под себя.
Wan2.1 Image-to-Video 14B 720P
Как загрузить воркфлоу
Скачайте файл и загрузите его в ComfyUI:
- Либо просто перетащите в интерфейс
- Либо откройте через меню: Workflows → Open (Ctrl+O)
📥 Скачать Wan2.1 Image-to-Video 720P Workflow
Пример входного изображения
Для теста можете использовать этот файл:
Воркфлоу:
Настройка и запуск воркфлоу
Чтобы всё заработало корректно, убедитесь, что:
- Загружено входное изображение.
- Используется модель 720P, соответствующая вашему железу. Если не скачана, выберите один из вариантов тут https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models:
📥 wan2.1_i2v_720p_14B_bf16.safetensors – требует мощное железо
📥 wan2.1_i2v_720p_14B_fp8_e4m3fn.safetensors – менее требовательна
Запуск генерации видео
🔹 Нажмите "Queue" или используйте сочетание клавиш Ctrl + Enter (Cmd + Enter на macOS).
📌 Важно: В узле wanImageToVideo установите разрешение 768×768.
Вы также можете генерировать 5 с видео в формате 720p (модель 14B) с 12 ГБ VRAM.
Wan2.1 Image-to-Video 14B 480P
Как загрузить воркфлоу
Этот воркфлоу похож на 720P, но использует 480P модель и работает в разрешении 512×512.
📥 Скачать Wan2.1 Image-to-Video 480P Workflow
После скачивания загрузите файл в ComfyUI:
- Перетащите его в интерфейс
- Или откройте через Workflows → Open (Ctrl+O)
Пример входного изображения
Можно использовать этот файл для теста:
Воркфлоу:
Настройка и запуск воркфлоу
Проверьте, что загружены все нужные файлы:
- Входное изображение.
- 480P модель загружается без ошибок. Если её нет, скачайте нужный вариант:📥 wan2.1_i2v_480p_14B_bf16.safetensors – требует мощное железо
📥 wan2.1_i2v_480p_14B_fp8_e4m3fn.safetensors – менее требовательна
📥 Скачать 480P модели
Запуск генерации видео
🔹 Нажмите "Queue" или используйте сочетание клавиш Ctrl + Enter (Cmd + Enter на macOS).
📌 Важно: В узле wanImageToVideo установите разрешение 512×512.
И последнее, но не менее важное: для создания обычных 5 с видео в формате 480p потребуется всего 8 ГБ VRAM в модели 14B. Так что пользователи 8 ГБ VRAM тоже должны быть довольны.
Wan2.1 Quantized Version Workflow
Эта версия предоставлена Kijai и требует установки дополнительных плагинов.
Установка необходимых плагинов
Перед использованием установите три плагина:
Загрузка моделей Wan2.1 Quantized Version
Все модели находятся здесь:
🔗 Kijai/WanVideo_comfy
1. Модели текстовых энкодеров
Выберите bf16 или fp8 версию в зависимости от возможностей устройства и сохраните в папку:
📂 ComfyUI/models/text_encoders/
📌 bf16 → требует более мощного железа.
📌 fp8 → подходит для слабых видеокарт с 8Гб+.
2. Модели диффузии
Выберите модель в зависимости от типа задачи и разрешения.
Сохраните файлы в папку:
📂 ComfyUI/models/diffusion_models/
Image-to-Video (I2V)
Text-to-Video (T2V)
🔍 Обозначения в названиях файлов
3. Модель VAE
Выберите нужную версию и сохраните в папку:
📂 ComfyUI/models/vae/
📌 bf16 → выше точность, больше требования.
📌 fp32 → подходит для большинства устройств.
Таким образом, вы можете генерировать до 8 с видео (128 кадров), используя всего 12 ГБ VRAM с моделью 14B, независимо от того, квантована она или нет.
Wan2.1 Quantized Version Text-to-Video Workflow
Загрузка и настройка воркфлоу
Нажмите на кнопку ниже, чтобы скачать текст-видео воркфлоу. Затем перетащите его в интерфейс ComfyUI или используйте меню:
📂 Workflows → Open (Ctrl+O)
🔗 Скачать Wan2.1 Quantized Version Text-to-Video Workflow
Воркфлоу:
Важные настройки перед запуском
Проверьте, что все модели загружены и корректно загружаются в ComfyUI:
1. Модель текстового энкодера
Сохраните файл в папку:
📂 ComfyUI/models/text_encoders/
2. Модель Text-to-Video (T2V)
Выберите модель в зависимости от возможностей устройства.
Сохраните файл в папку:
📂 ComfyUI/models/diffusion_models/
3. Модель VAE
Сохраните файл в папку:
📂 ComfyUI/models/vae/
Запуск генерации видео
После проверки всех настроек нажмите Queue или используйте горячую клавишу:
Ctrl (Cmd) + Enter ⏩
Теперь можно создавать видео из текста!
Wan2.1 Quantized Version Image-to-Video 480P Workflow
Загрузка и настройка воркфлоу
Нажмите на кнопку ниже, чтобы скачать воркфлоу Image-to-Video 480P. Затем перетащите его в интерфейс ComfyUI или используйте меню:
📂 Workflows → Open (Ctrl+O)
🔗 Скачать Wan2.1 Quantized Version Image-to-Video 480P Workflow
Воркфлоу:
Схема работы Image-to-Video 480P
Важные настройки перед запуском
Проверьте, что все модели загружены и корректно загружаются в ComfyUI:
1. Модель текстового энкодера
Сохраните файл в папку:
📂 ComfyUI/models/text_encoders/
2. CLIP-модель
Сохраните файлы в папку:
📂 ComfyUI/models/clip/
- 📥 open-clip-xlm-roberta-large-vit-huge-14_visual_fp32.safetensors
3. Модель VAE
Сохраните файл в папку:
📂 ComfyUI/models/vae/
4. Модель Image-to-Video (I2V)
Выберите модель в зависимости от возможностей устройства.
Сохраните файл в папку:
📂 ComfyUI/models/diffusion_models/
Запуск генерации видео
1️⃣ Загрузите изображение, из которого хотите создать видео.
2️⃣ Введите описание видео в поле промпта.
3️⃣ Нажмите Queue или используйте горячую клавишу:
Ctrl (Cmd) + Enter ⏩
Wan2.1 Quantized Version Video-to-Video Workflow
Загрузка и настройка воркфлоу
Нажмите на кнопку ниже, чтобы скачать воркфлоу Video-to-Video. Затем перетащите его в интерфейс ComfyUI или используйте меню:
📂 Workflows → Open (Ctrl+O)
🔗 Скачать Wan2.1 Quantized Version Video-to-Video Workflow
Воркфлоу:
Важные настройки перед запуском
Проверьте, что все модели загружены и корректно загружаются в ComfyUI:
1. Модель текстового энкодера
Сохраните файл в папку:
📂 ComfyUI/models/text_encoders/
2. Исходное видео
Загрузите видео, которое хотите использовать для обработки (inpainting, стилизация и т. д.)
3. Модель Video-to-Video (T2V)
Сохраните файл в папку:
📂 ComfyUI/models/diffusion_models/
4. Модель VAE
Сохраните файл в папку:
📂 ComfyUI/models/vae/
Запуск генерации видео
1️⃣ Загрузите исходное видео
2️⃣ Введите описание изменений в поле промпта
3️⃣ Нажмите Queue или используйте горячую клавишу:
Ctrl (Cmd) + Enter ⏩
Wan2.1 GGUF Version Workflow
📌 Авторский воркфлоу с Civitai:
🔗 Wan Video Fastest Native GGUF Workflow (I2V & T2V)
Часто задаваемые вопросы
Как сохранить видео в MP4?
По умолчанию воркфлоу генерирует видео в формате .webp.
Чтобы сохранить в MP4, используйте ноду video Combine из плагина:
📥 ComfyUI-VideoHelperSuite
Спасибо, что дочитали до конца! 🙏
Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:
Так же заходите в мою группу в VK и на канал Телеграм.