148 подписчиков

Большое обновление SwarmUI: поддержка всех версий Flux, SD3 и многое другое

13 октября 202413 окт 2024

7 мин

Оглавление

Какие модели поддерживаются:
Видео-модели и их особенности
Настройка PixArt Sigma в Swarm

Приветствую!

В этой статье расскажу обо всех нововведениях SwarmUI, которая считалась устаревшей по сравнению с другими платформами по взаимодействию с нейросетями. Её давно не обновляли и новостей не было аж с выхода Stable Diffusion 3 Medium. Но тут автор вернулся с Японии и решил нас обрадовать большим обновлением.

Swarm — это интерфейс, который умеет работать с кучей разных моделей. Он не только поддерживает современные форматы, но и без проблем тянет старые версии. Например, можно спокойно использовать метаданные ModelSpec или даже импортировать всякие устаревшие форматы вроде матричных JSON-файлов.
Ссылка на Github

Какие модели поддерживаются:

Stable Diffusion v1 и v2 — обе версии широко применяются в генеративных моделях для создания изображений. Модели v1 и v2 работают без дополнительных настроек и конфигураций. Устаревшие модели, которые использовали ранние версии ModelSpec, также могут быть загружены в Swarm и продолжат корректно функционировать. Если вам нужно использовать более старые модели, не забудьте обновить их метаданные через встроенный редактор.
Stable Diffusion v1 Inpainting — эти модели идеально подходят для восстановления деталей изображения или добавления новых элементов. Swarm поддерживает все версии inpainting-моделей, в том числе популярную RunwayML. Однако для максимальной совместимости рекомендуется вручную установить идентификатор архитектуры на stable-diffusion-v1/inpaint.
Stable Diffusion XL — SDXL отличается более высокими разрешениями и улучшенными предустановками. В SwarmUI SDXL модели могут быть легко интегрированы и предлагают гибкие параметры для настройки генерации. Помимо основной модели, Swarm также поддерживает SDXL Refiner — модель, используемую для уточнения деталей и повышения точности. При работе с SDXL следует помнить, что установка разрешения ниже 1024x1024 может привести к артефактам или снижению качества изображения.
Stable Diffusion 3 (SD3) — поддержка SD3 Medium версии реализована в Swarm с некоторыми дополнительными опциями. При использовании SD3 Swarm автоматически загружает кодировщики текста для модели и предлагает выбирать между CLIP и T5. Это позволяет вам варьировать качество текстовой интерпретации. CLIP по умолчанию используется для быстрого и точного рендеринга, но T5 может предложить дополнительные возможности для тех, кто ищет более глубокие результаты.
SDXL Turbo и SD Turbo — эти Turbo-версии моделей специально разработаны для ускоренной работы с минимальными ресурсами. Они автоматически применяют упрощенные параметры, такие как низкий CFG Scale и минимальное количество шагов. Эти модели подойдут для тех случаев, когда вам нужно генерировать изображения в режиме реального времени с минимальными задержками.
Модели согласованности задержек (LCM)
Работают так же, как и обычные, но нужно настроить CFG Scale на 1 и Steps на 4. Самплер ставим на LCM.
Модели Lightning
Всё так же, как и с другими моделями, но параметр CFG пока будет равен 1.
SegMind SSD-1B
Никаких отличий от работы с обычными моделями SD.
Stable Cascade
Поддерживается при использовании моделей формата ComfyUI. Нужно просто сохранить файлы stage_b и stage_c в одной папке.
TensorRT
Поддерживается для множества моделей SD (v1, v2-768-v, SDXL и другие). Это ускоряет генерацию на Nvidia, но снижает гибкость. Подходит для API/ботов, но не особо для индивидуального использования. Пара советов: для использования TensorRT нужно создать отдельные движки для каждой модели, с которой хотите работать. Также, TensorRT не совместим с LoRA и ControlNets.

Видео-модели и их особенности

В Swarm также реализована поддержка моделей для генерации видео, таких как Стабильное распространение видео (SVD). Эти модели используют аналогичные механизмы, что и модели для создания изображений, но с дополнительными параметрами для управления движением и плавностью видео. В Swarm доступны два основных режима работы с видео:

Text2Video — генерация видео из текстовых описаний.
Image2Video — создание анимации на основе изображения с добавлением движения и эффектов.

Настройка PixArt Sigma в Swarm

Если ты работаешь с моделями вроде PixArt Sigma или AuraFlow и хочешь интегрировать их в Swarm, придется немного потрудиться. Этот процесс может показаться слегка неудобным для новичков, но если ты хоть немного в теме, всё вполне решаемо. Давай разберем пошагово, как это сделать.

PixArt Sigma — это продвинутая модель, поддерживаемая в Swarm, но требуется несколько шагов для ее корректной работы:

Установка репозитория
Для начала нужно установить ComfyUI ExtraModels в свой бэкэнд Comfy. Это база, без которой дальше никак.
Конвертация модели
После установки запускаем Swarm и идем в Utilities -> Pickle To Safetensors -> Convert Models. Это нужно для того, чтобы конвертировать модель в формат safetensors — обязательное требование для Swarm.Если не хочешь возиться с конвертацией, можешь загрузить уже готовую предварительно сконвертированную модель.
Настройка модели
После того как у тебя есть модель в формате safetensors, заходим на вкладку Models, выбираем нужную модель, нажимаем на меню и выбираем Edit Metadata.В поле Architecture выбери PixArtMS Sigma XL 2 для моделей с разрешением 1024x1024 или ниже, или XL 2 (2K) для 2k.
В поле Standard Resolution укажи разрешение: 1024x1024, 512x512, или 2048x2048 для 2k моделей.
Выбор VAE
Убедись, что в настройках пользователя у тебя выбрано DefaultSDXLVae. Если его нет, скачай его отсюда и помести в папку (Swarm)/Models/VAE.
Использование модели
Теперь твоя модель готова к работе! Запускать и использовать ее можно так же, как любую другую модель в Swarm. Однако могут возникнуть некоторые проблемы совместимости функций — на это стоит обратить внимание.

Настройка AuraFlow

AuraFlow — это ещё одна интересная модель, поддерживаемая в Swarm. Правда, тут тоже придется слегка повозиться с ручной настройкой:

Загрузка и установка:
После загрузки модели через Swarm, зайди в её Edit Metadata и выбери архитектуру (Temporary) AuraFlow.
Установка разрешения:
Укажи разрешение 1024x1024, чтобы модель корректно работала с изображениями.

Команда AuraFlow обещает добавить поддержку modelspec в ближайшем будущем, что упростит процесс установки. Но пока нужно немного потерпеть и сделать это вручную.

Поддержка FLUX.1

Оригинальные версии

Black Forest Labs выпустила модели Flux.1, которые теперь поддерживаются в SwarmUI. Вот небольшой гайд по их использованию.

Рекомендуемые файлы

NF4 файлы – стандартные и рекомендуемые для работы.
FP8 файлы – альтернатива для тех, кто хочет попробовать упрощенный формат.

Где скачать:

Файлы необходимо разместить в папке: (Swarm)/Models/Stable-Diffusion.

Альтернативные версии

Есть также оригинальные файлы BFL:

Schnell (Turbo) – скачать
Dev (не Turbo) – скачать

Они помещаются в (Swarm)/Models/diffusion_models, а файл ae.sft – в (Swarm)/Models/VAE.

Настройки моделей

Для обеих версий рекомендуется:

CFG = 1 (отрицательные запросы не работают).
Sampling: Euler + Simple.

Для Dev доступен параметр Flux Guidance Scale для настройки внедрения. При более высоких значениях можно использовать динамическое пороговое значение и увеличивать CFG.

Рекомендованные шаги

Schnell – до 4 шагов (можно и 1 шаг).
Dev – от 20 шагов и выше.

Аппаратные требования

Идеально работает на мощных GPU (например, RTX 4090). Модели требуют много оперативной памяти (32GB+), хотя можно запускать и на слабых картах вроде RTX 2060/2070.

Пример: На 4090 генерация 4-шагового изображения занимает около 4-5 секунд, что сравнимо с 20 шагами в SDXL, но качество заметно выше.

Поддержка форматов

По умолчанию используется fp8_e4m3fn. Если у вас мощная видеокарта и вы хотите использовать fp16/bf16, установите Preferred DType = Default (16 bit).

Разрешение

Модель поддерживает разрешения до 2 МП (1920x1088), но стандартно использует 1 МП (1024x1024). Можно снизить разрешение до 256x256, и всё равно получить хорошие результаты.

Модели NF4 (быстро и баланс качества)

Модели формата BnB NF4, такие как эта ,частично поддерживаются в SwarmUI автоматически.
При первой попытке загрузить модель NF4 появится всплывающее окно с предложением установить поддержку. Это автоматически установит https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
Вы можете принять это всплывающее окно, после установки перезагрузите весь SwarmUI. Затем попробуйте сгенерировать еще раз, и это должно сработать.
Модели BnB-NF4 тут имеют множество ограничений совместимости, включая даже некорректную работу LoRA.

Квантованные модели GGUF

Если хотите сэкономить ресурсы, можно использовать квантованные модели GGUF, SwarmUI увидит их автоматически:

Установка в /(Swarm)/Models/diffusion_models. Так же вам понадобится соответствующий VAE в папке /(Swarm)/Models/VAE.

Далее нажать на кнопку Edit Metadata чтобы задать модель и архитектуру. При первой загрузке вас попросят установить поддержку. Оно установит компонент ComfUI. После перезагрузки должно всё заработать.