Приветствую!
В этой статье расскажу обо всех нововведениях SwarmUI, которая считалась устаревшей по сравнению с другими платформами по взаимодействию с нейросетями. Её давно не обновляли и новостей не было аж с выхода Stable Diffusion 3 Medium. Но тут автор вернулся с Японии и решил нас обрадовать большим обновлением.
Swarm — это интерфейс, который умеет работать с кучей разных моделей. Он не только поддерживает современные форматы, но и без проблем тянет старые версии. Например, можно спокойно использовать метаданные ModelSpec или даже импортировать всякие устаревшие форматы вроде матричных JSON-файлов.
Ссылка на Github
Какие модели поддерживаются:
- Stable Diffusion v1 и v2 — обе версии широко применяются в генеративных моделях для создания изображений. Модели v1 и v2 работают без дополнительных настроек и конфигураций. Устаревшие модели, которые использовали ранние версии ModelSpec, также могут быть загружены в Swarm и продолжат корректно функционировать. Если вам нужно использовать более старые модели, не забудьте обновить их метаданные через встроенный редактор.
- Stable Diffusion v1 Inpainting — эти модели идеально подходят для восстановления деталей изображения или добавления новых элементов. Swarm поддерживает все версии inpainting-моделей, в том числе популярную RunwayML. Однако для максимальной совместимости рекомендуется вручную установить идентификатор архитектуры на stable-diffusion-v1/inpaint.
- Stable Diffusion XL — SDXL отличается более высокими разрешениями и улучшенными предустановками. В SwarmUI SDXL модели могут быть легко интегрированы и предлагают гибкие параметры для настройки генерации. Помимо основной модели, Swarm также поддерживает SDXL Refiner — модель, используемую для уточнения деталей и повышения точности. При работе с SDXL следует помнить, что установка разрешения ниже 1024x1024 может привести к артефактам или снижению качества изображения.
- Stable Diffusion 3 (SD3) — поддержка SD3 Medium версии реализована в Swarm с некоторыми дополнительными опциями. При использовании SD3 Swarm автоматически загружает кодировщики текста для модели и предлагает выбирать между CLIP и T5. Это позволяет вам варьировать качество текстовой интерпретации. CLIP по умолчанию используется для быстрого и точного рендеринга, но T5 может предложить дополнительные возможности для тех, кто ищет более глубокие результаты.
- SDXL Turbo и SD Turbo — эти Turbo-версии моделей специально разработаны для ускоренной работы с минимальными ресурсами. Они автоматически применяют упрощенные параметры, такие как низкий CFG Scale и минимальное количество шагов. Эти модели подойдут для тех случаев, когда вам нужно генерировать изображения в режиме реального времени с минимальными задержками.
- Модели согласованности задержек (LCM)
Работают так же, как и обычные, но нужно настроить CFG Scale на 1 и Steps на 4. Самплер ставим на LCM. - Модели Lightning
Всё так же, как и с другими моделями, но параметр CFG пока будет равен 1. - SegMind SSD-1B
Никаких отличий от работы с обычными моделями SD. - Stable Cascade
Поддерживается при использовании моделей формата ComfyUI. Нужно просто сохранить файлы stage_b и stage_c в одной папке. - TensorRT
Поддерживается для множества моделей SD (v1, v2-768-v, SDXL и другие). Это ускоряет генерацию на Nvidia, но снижает гибкость. Подходит для API/ботов, но не особо для индивидуального использования. Пара советов: для использования TensorRT нужно создать отдельные движки для каждой модели, с которой хотите работать. Также, TensorRT не совместим с LoRA и ControlNets.
Видео-модели и их особенности
В Swarm также реализована поддержка моделей для генерации видео, таких как Стабильное распространение видео (SVD). Эти модели используют аналогичные механизмы, что и модели для создания изображений, но с дополнительными параметрами для управления движением и плавностью видео. В Swarm доступны два основных режима работы с видео:
- Text2Video — генерация видео из текстовых описаний.
- Image2Video — создание анимации на основе изображения с добавлением движения и эффектов.
Настройка PixArt Sigma в Swarm
Если ты работаешь с моделями вроде PixArt Sigma или AuraFlow и хочешь интегрировать их в Swarm, придется немного потрудиться. Этот процесс может показаться слегка неудобным для новичков, но если ты хоть немного в теме, всё вполне решаемо. Давай разберем пошагово, как это сделать.
PixArt Sigma — это продвинутая модель, поддерживаемая в Swarm, но требуется несколько шагов для ее корректной работы:
- Установка репозитория
Для начала нужно установить ComfyUI ExtraModels в свой бэкэнд Comfy. Это база, без которой дальше никак. - Конвертация модели
После установки запускаем Swarm и идем в Utilities -> Pickle To Safetensors -> Convert Models. Это нужно для того, чтобы конвертировать модель в формат safetensors — обязательное требование для Swarm.Если не хочешь возиться с конвертацией, можешь загрузить уже готовую предварительно сконвертированную модель. - Настройка модели
После того как у тебя есть модель в формате safetensors, заходим на вкладку Models, выбираем нужную модель, нажимаем на меню и выбираем Edit Metadata.В поле Architecture выбери PixArtMS Sigma XL 2 для моделей с разрешением 1024x1024 или ниже, или XL 2 (2K) для 2k.
В поле Standard Resolution укажи разрешение: 1024x1024, 512x512, или 2048x2048 для 2k моделей. - Выбор VAE
Убедись, что в настройках пользователя у тебя выбрано DefaultSDXLVae. Если его нет, скачай его отсюда и помести в папку (Swarm)/Models/VAE. - Использование модели
Теперь твоя модель готова к работе! Запускать и использовать ее можно так же, как любую другую модель в Swarm. Однако могут возникнуть некоторые проблемы совместимости функций — на это стоит обратить внимание.
Настройка AuraFlow
AuraFlow — это ещё одна интересная модель, поддерживаемая в Swarm. Правда, тут тоже придется слегка повозиться с ручной настройкой:
- Загрузка и установка:
После загрузки модели через Swarm, зайди в её Edit Metadata и выбери архитектуру (Temporary) AuraFlow. - Установка разрешения:
Укажи разрешение 1024x1024, чтобы модель корректно работала с изображениями.
Команда AuraFlow обещает добавить поддержку modelspec в ближайшем будущем, что упростит процесс установки. Но пока нужно немного потерпеть и сделать это вручную.
Поддержка FLUX.1
Оригинальные версии
Black Forest Labs выпустила модели Flux.1, которые теперь поддерживаются в SwarmUI. Вот небольшой гайд по их использованию.
Рекомендуемые файлы
- NF4 файлы – стандартные и рекомендуемые для работы.
- FP8 файлы – альтернатива для тех, кто хочет попробовать упрощенный формат.
Где скачать:
Файлы необходимо разместить в папке: (Swarm)/Models/Stable-Diffusion.
Альтернативные версии
Есть также оригинальные файлы BFL:
Они помещаются в (Swarm)/Models/diffusion_models, а файл ae.sft – в (Swarm)/Models/VAE.
Настройки моделей
Для обеих версий рекомендуется:
- CFG = 1 (отрицательные запросы не работают).
- Sampling: Euler + Simple.
Для Dev доступен параметр Flux Guidance Scale для настройки внедрения. При более высоких значениях можно использовать динамическое пороговое значение и увеличивать CFG.
Рекомендованные шаги
- Schnell – до 4 шагов (можно и 1 шаг).
- Dev – от 20 шагов и выше.
Аппаратные требования
Идеально работает на мощных GPU (например, RTX 4090). Модели требуют много оперативной памяти (32GB+), хотя можно запускать и на слабых картах вроде RTX 2060/2070.
Пример: На 4090 генерация 4-шагового изображения занимает около 4-5 секунд, что сравнимо с 20 шагами в SDXL, но качество заметно выше.
Поддержка форматов
По умолчанию используется fp8_e4m3fn. Если у вас мощная видеокарта и вы хотите использовать fp16/bf16, установите Preferred DType = Default (16 bit).
Разрешение
Модель поддерживает разрешения до 2 МП (1920x1088), но стандартно использует 1 МП (1024x1024). Можно снизить разрешение до 256x256, и всё равно получить хорошие результаты.
Модели NF4 (быстро и баланс качества)
- При первой попытке загрузить модель NF4 появится всплывающее окно с предложением установить поддержку. Это автоматически установит https://github.com/comfyanonymous/ComfyUI_bitsandbytes_NF4
Вы можете принять это всплывающее окно, после установки перезагрузите весь SwarmUI. Затем попробуйте сгенерировать еще раз, и это должно сработать. - Модели BnB-NF4 тут имеют множество ограничений совместимости, включая даже некорректную работу LoRA.
Квантованные модели GGUF
Если хотите сэкономить ресурсы, можно использовать квантованные модели GGUF, SwarmUI увидит их автоматически:
Установка в /(Swarm)/Models/diffusion_models. Так же вам понадобится соответствующий VAE в папке /(Swarm)/Models/VAE.
Далее нажать на кнопку Edit Metadata чтобы задать модель и архитектуру. При первой загрузке вас попросят установить поддержку. Оно установит компонент ComfUI. После перезагрузки должно всё заработать.
Спасибо, что дочитали до конца! 🙏
Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:
Так же заходите в мою группу в VK и на канал Телеграм.