Найти в Дзене
Neuro-сеть

Новая версия Stable Diffusion Medium 3.5. Обзор и использование

Stable Diffusion 3.5 Medium — это обновлённая версия движка для генерации изображений по текстовым запросам, с множеством улучшений под капотом. Модель сделала значительный скачок вперёд, и теперь выдаёт чёткие изображения, чутко реагирует на сложные описания и при этом расходует меньше ресурсов. А если вы делаете проекты до миллиона долларов дохода, то модель можно использовать бесплатно по Stability Community License. Community License разрешает использовать модель для некоммерческих проектов или коммерческих, если доход ниже $1M. У крупных компаний с доходом выше этого порога есть опция купить Enterprise лицензию. Модель работает через Stability AI API и имеет поддержку локального запуска: Дальше будут ссылки на модели и энкодеры. Чтобы в ComfUI все заработало нужен рабочий процесс: это картинка, которую нужно просто перетащить мышкой в рабочее пространство ComfUI. Обучение модели проводилось на синтетических и тщательно отобранных данных. При использовании длинных запросов (более 2
Оглавление

Stable Diffusion 3.5 Medium — это обновлённая версия движка для генерации изображений по текстовым запросам, с множеством улучшений под капотом. Модель сделала значительный скачок вперёд, и теперь выдаёт чёткие изображения, чутко реагирует на сложные описания и при этом расходует меньше ресурсов. А если вы делаете проекты до миллиона долларов дохода, то модель можно использовать бесплатно по Stability Community License.

Что нового в модели?

  • Тип: MMDiT-X (Multimodal Diffusion Transformer) — продвинутая модель для генерации изображений с текстовым управлением
  • Ключевые фишки: Внутри три мощных текстовых энкодера, QK-нормализация для устойчивости обучения и специальные блоки двойного внимания в первых 12 слоях трансформера, чтобы сцены получались логичными и естественными. Всё это помогает, например, избежать резких переходов цвета или искажений.
    Страница на
    arXiv

Как можно использовать модель?

Community License разрешает использовать модель для некоммерческих проектов или коммерческих, если доход ниже $1M. У крупных компаний с доходом выше этого порога есть опция купить Enterprise лицензию.

Где и как запускать?

Модель работает через Stability AI API и имеет поддержку локального запуска:

  • API Stability AI: Поддержка стабильной работы через подключение по API.
  • ComfyUI: Узловая графическая оболочка для настройки и управления.
  • Hugging Face и GitHub: Полная поддержка с примером рабочего процесса для разработчиков.

Технические подробности и улучшения

  1. Первые 13 слоёв трансформера прокачаны блоками самовнимания (self-attention), что помогает модели лучше учитывать детали и структуру изображения.
  2. QK-нормализация: Примочка для улучшения стабильности, не даёт модели «сойти с ума» при больших объёмах данных.
  3. Модель последовательно обучалась на разных разрешениях, начиная с 256 пикселей и заканчивая 1440. На последнем этапе добавлено смешение масштабов, чтобы выходное изображение выглядело чётко.
  4. В процессе добавлены расширенные позиции с поддержкой 384x384, что делает изображения более устойчивыми на разных уровнях увеличения.

Важно!

Дальше будут ссылки на модели и энкодеры. Чтобы в ComfUI все заработало нужен рабочий процесс: это картинка, которую нужно просто перетащить мышкой в рабочее пространство ComfUI.

Энкодеры

  • CLIP: Два энкодера OpenCLIP-ViT (версии G и L) для обработки текста длиной до 77 токенов.
    OpenAI CLIP-L
    OpenCLIP bigG
  • T5-xxl: Третий энкодер поддерживает длину до 256 токенов, что позволяет обрабатывать сложные или длинные запросы, сохраняя чёткость и контекст.
    Google T5-XXL-FP16
    Но если у вас меньше 32 Гб оперативной памяти лучше использовать другой энкодер
    T5-XXL-FP8

    Все эти энкодеры кладём в /models/clip/.

Данные и метод обучения

Обучение модели проводилось на синтетических и тщательно отобранных данных. При использовании длинных запросов (более 256 токенов) могут появиться артефакты по краям изображения, поэтому рекомендуется проверять длину и корректировать при необходимости.

Совет

Для более точных результатов и естественного отображения структуры лучше использовать Skip Layer Guidance.

Модель и рабочий процесс

  • sd3.5_medium.safetensors - Основной файл модели. Кладём в /models/checkpoints/.
  • Рабочий процесс или Workflow для ComfUI.

Для использования с diffusers каталоги scheduler/, transformer/ и прочие обеспечивают полную работу модели с diffusers.

Stable Diffusion 3.5 Medium позволяет глубже погружаться в процесс генерации изображений, предлагая гибкость для более точных и детализированных результатов даже при сложных запросах.

Бонус "Всё включено"

Это цельная модель включающая в себя энкодеры и сам safetensors fp8:
Ссылка
Таким образом не нужно дополнительно подгружать энкодеры.
Рабочий процесс для
ComfUI.

Спасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Вам может понравится: