176 подписчиков

Новая версия Stable Diffusion Medium 3.5. Обзор и использование

31 октября 202431 окт 2024

3 мин

Stable Diffusion 3.5 Medium — это обновлённая версия движка для генерации изображений по текстовым запросам, с множеством улучшений под капотом. Модель сделала значительный скачок вперёд, и теперь выдаёт чёткие изображения, чутко реагирует на сложные описания и при этом расходует меньше ресурсов. А если вы делаете проекты до миллиона долларов дохода, то модель можно использовать бесплатно по Stability Community License. Community License разрешает использовать модель для некоммерческих проектов или коммерческих, если доход ниже $1M. У крупных компаний с доходом выше этого порога есть опция купить Enterprise лицензию. Модель работает через Stability AI API и имеет поддержку локального запуска: Дальше будут ссылки на модели и энкодеры. Чтобы в ComfUI все заработало нужен рабочий процесс: это картинка, которую нужно просто перетащить мышкой в рабочее пространство ComfUI. Обучение модели проводилось на синтетических и тщательно отобранных данных. При использовании длинных запросов (более 2

Оглавление

Что нового в модели?
Как можно использовать модель?
Где и как запускать?

Что нового в модели?

Тип: MMDiT-X (Multimodal Diffusion Transformer) — продвинутая модель для генерации изображений с текстовым управлением
Ключевые фишки: Внутри три мощных текстовых энкодера, QK-нормализация для устойчивости обучения и специальные блоки двойного внимания в первых 12 слоях трансформера, чтобы сцены получались логичными и естественными. Всё это помогает, например, избежать резких переходов цвета или искажений.
Страница на arXiv

Как можно использовать модель?

Community License разрешает использовать модель для некоммерческих проектов или коммерческих, если доход ниже $1M. У крупных компаний с доходом выше этого порога есть опция купить Enterprise лицензию.

Где и как запускать?

Модель работает через Stability AI API и имеет поддержку локального запуска:

API Stability AI: Поддержка стабильной работы через подключение по API.
ComfyUI: Узловая графическая оболочка для настройки и управления.
Hugging Face и GitHub: Полная поддержка с примером рабочего процесса для разработчиков.

Технические подробности и улучшения

Первые 13 слоёв трансформера прокачаны блоками самовнимания (self-attention), что помогает модели лучше учитывать детали и структуру изображения.
QK-нормализация: Примочка для улучшения стабильности, не даёт модели «сойти с ума» при больших объёмах данных.
Модель последовательно обучалась на разных разрешениях, начиная с 256 пикселей и заканчивая 1440. На последнем этапе добавлено смешение масштабов, чтобы выходное изображение выглядело чётко.
В процессе добавлены расширенные позиции с поддержкой 384x384, что делает изображения более устойчивыми на разных уровнях увеличения.

Важно!

Дальше будут ссылки на модели и энкодеры. Чтобы в ComfUI все заработало нужен рабочий процесс: это картинка, которую нужно просто перетащить мышкой в рабочее пространство ComfUI.

Энкодеры

CLIP: Два энкодера OpenCLIP-ViT (версии G и L) для обработки текста длиной до 77 токенов.
OpenAI CLIP-L
OpenCLIP bigG
T5-xxl: Третий энкодер поддерживает длину до 256 токенов, что позволяет обрабатывать сложные или длинные запросы, сохраняя чёткость и контекст.
Google T5-XXL-FP16
Но если у вас меньше 32 Гб оперативной памяти лучше использовать другой энкодер
T5-XXL-FP8

Все эти энкодеры кладём в /models/clip/.

Данные и метод обучения

Обучение модели проводилось на синтетических и тщательно отобранных данных. При использовании длинных запросов (более 256 токенов) могут появиться артефакты по краям изображения, поэтому рекомендуется проверять длину и корректировать при необходимости.

Совет

Для более точных результатов и естественного отображения структуры лучше использовать Skip Layer Guidance.

Модель и рабочий процесс

sd3.5_medium.safetensors - Основной файл модели. Кладём в /models/checkpoints/.
Рабочий процесс или Workflow для ComfUI.

Для использования с diffusers каталоги scheduler/, transformer/ и прочие обеспечивают полную работу модели с diffusers.

Stable Diffusion 3.5 Medium позволяет глубже погружаться в процесс генерации изображений, предлагая гибкость для более точных и детализированных результатов даже при сложных запросах.

Бонус "Всё включено"

Это цельная модель включающая в себя энкодеры и сам safetensors fp8:
Ссылка
Таким образом не нужно дополнительно подгружать энкодеры.
Рабочий процесс для ComfUI.

Спасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

dzen.ru

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Вам может понравится:

Бесплатный онлайн FLUX с Lora

Neuro-сеть29 сентября 2024

Топ-13 Lora для FLUX, SD и SDXL

Neuro-сеть2 октября 2024