452 подписчика

Модели Stable Diffusion 3.5. Установка и настройки в ComfyUI и Stable SwarmUI.

12 ноября 202412 ноя 2024

787

8 мин

Здравствуйте, друзья!

Компания StabilityAI таки сдержала своё обещание и представила обновлённую версию Stable Diffusion 3.5. Предыдущая версия, как многие помнят, не оправдала ожиданий и быстро утратила свою популярность. На смену ей пришла версия 3.5, которая стала более стабильной и функциональной.

Модель SD 3.5 стала доступна 22 октября в версиях: Large, Turbo и 29 октября в версии Medium.

Модель Large работает с 8 миллиардами параметров, и оптимальные шаги генерации для неё начинаются от 30 и выше.

Turbo-версия также использует 8 миллиардов параметров, но с оптимальным количеством шагов от 8.

Модель Medium работает с 2,5 миллиардами параметров, с оптимальным количеством шагов также от 30.

Что даёт использование такого количества параметров?

- позволяет модели сосредоточиться на более тонких деталях и сложных структурах, что приводит к созданию реалистичных и высококачественных изображений.

- эти модели обладают улучшенной способностью обобщать закономерности в данных, что позволяет им создавать более разнообразные и уникальные изображения.

Однако обучение и использование таких моделей требует значительных вычислительных ресурсов: мощных графических процессоров (GPU), большого количества оперативной памяти (RAM), а иногда и специализированных графических процессоров для обучения и работы.

Большое количество параметров также увеличивает риск переобучения, особенно если количество данных для обучения недостаточно велико. Это может привести к генерации изображений, слишком похожих на тренировочные данные.

Но несмотря на эти минусы, большие модели могут лучше усваивать и комбинировать различные элементы из тренировочных данных, что позволяет создавать более интересные и уникальные изображения, включающие новые концепции и идеи.

Все перечисленные модели работают с использованием метода MMDIT, что означает «Multi-Modal Deep Inverse Transformations» — «Мульти-модальные глубокие обратные преобразования». В модели SD 3.5 Medium разработчики применили расширенную версию MMDIT-X (eXtended). По словам самих разработчиков, благодаря этому модель не сильно уступает старшим моделям по качеству генерируемых изображений, но значительно превосходит их по скорости генерации.

Что такое MMDIT и как он работает в генеративных нейросетях?

MMDIT (Multi-Modal Deep Inverse Transformations) — это метод, который используется в генеративных нейросетях для создания изображений. Основная идея заключается в том, чтобы использовать различные виды данных (например, текст и изображения) для обучения модели, которая может генерировать новые изображения на основе этих данных.

Многомодальные данные: Представьте, что у вас есть текстовое описание сцены и соответствующее ему изображение. Модель учится на таких парах данных, чтобы понимать, как текст связан с изображением.

Глубокие обратные преобразования: Модель использует нейронные сети для преобразования входных данных в изображения. Это как если бы модель училась рисовать картину по описанию.

Обучение модели: Модель обучается на большом наборе данных, где каждому текстовому описанию соответствует изображение. В процессе обучения модель учится понимать, как различные аспекты описания (например, цвета, объекты, сцены) связаны с изображением.

Генерация изображений: После обучения модель может использоваться для генерации новых изображений на основе новых текстовых описаний. Например, если вы дадите модели описание "Солнечный день на пляже с пальмами и морем", она сможет сгенерировать изображение, которое соответствует этому описанию.

Чтобы приступить к работе с новыми моделями SD 3.5, не нужно загружать дополнительные файлы, если вы уже использовали SD 3 или Flux. В этих моделях используется так называемый «тройной клип», который включает в себя три компонента: модель clip_l, модель clip_g и модель clip T5.

Главное отличие от предыдущей версии заключается в усовершенствованном автоэнкодере VAE. Как утверждают разработчики, благодаря этому процесс кодирования стал более эффективным. (ссылка на VAE для SD 3.5 будет ниже)

Чтобы лучше понять, что такое «clip», я приведу несколько простых объяснений:

CLIP (Contrastive Language-Image Pre-training) — это модель, которая объединяет текстовые и визуальные данные для обучения. Основная идея CLIP заключается в том, чтобы обучить модель на огромном количестве пар текст-изображение. Благодаря этому она учится понимать связь между текстом и изображениями и может различать, какой текст соответствует какому изображению.

T5 (Text-to-Text Transfer Transformer) — это модель, использующая архитектуру трансформера для решения различных задач обработки естественного языка (NLP). Основная идея T5 заключается в том, чтобы преобразовать все задачи NLP в задачу перевода текста в текст.

Требования к конфигурации ПК для моделей SD 3.5 также остались практически неизменными, хотя сами модели стали менее требовательными, чем раньше.

Согласно отзывам пользователей, Turbo и Medium модели вполне комфортно работают с 8 гигабайтами видеопамяти, и даже 6 гигабайт будет достаточно при работе с Turbo моделью. Однако для Large модели требования уже более серьёзные.

Я протестировал Large модель на 10 гигабайтах видеопамяти. Процесс генерации изображений при 30 шагах и размере изображения 1280х720 пикселей занимает в среднем около 1 минуты 40 секунд. Это не быстро, но работает.

С Turbo моделью всё намного приятнее: 8 шагов пролетают всего за 20-30 секунд в зависимости от настроек и разрешения генерируемого изображения. С Medium моделью уходит больше времени — порядка минуты. Я не могу сказать, что младшие модели значительно уступают старшей по следованию промпту или качеству изображения. Конечно, различия есть. И с некоторыми промптами они ощутимы, но не стоит забывать и о скорости генерации моделей. А для многих скорость генерации это чуть ли не главный фактор.

Справа Turbo модель, слева Large модель. Промпт: Hyperrealism, Cute penguin wearing cyberpunk santa costume standing in snow surrounded by gifts and christmas tree near by

Справа Turbo модель, слева Large модель. Промпт: A jar of Nutella explodes in a nuclear blast, showering the area with gooey, hazelnut-chocolate radiation.

Справа Turbo модель, слева Large модель. Промпт: a group of 4 people with wow happy expression wearing same T-shirt and taxt "Hello World"

В настоящее время существует несколько форматов моделей SD 3.5. Самая большая из них - FP16, которая требует значительного объёма видеопамяти, но при этом обеспечивает максимальное качество, согласованность и точное следование запросу. Далее FP8 модель, хоть и легче, остаётся достаточно объёмной и также требует много видеопамяти. Кроме того, уже существует множество квантованных моделей, которые требуют от 6 до 12 ГБ видеопамяти. Также есть так называемые AIO-модели (all-in-one), которые включают в себя clip_l, clip_g, t5 и vae. Для их использования не требуется дополнительно загружать и подключать какие-либо дополнительные компоненты. Посмотреть и выбрать для себя модели вы как всегда можете посетив ресурс Civitai.com. (не забывайте пользоваться поиском)

Думаю, с теорией всё понятно, перейдём к практике. Здесь тоже всё остаётся по-прежнему: вы сможете работать с моделями SD 3.5 в тех же интерфейсах, что и с моделями SD 3 — ComfyUI и Stable SwarmUI.

Я не вижу смысла подробно описывать процесс установки. Если вы ранее читали мои статьи о SD3, то, вероятно, уже установили эти интерфейсы. Если же нет, то ознакомиться с процессом установки и настройки сможете тут.

Я делился рабочими пространствами с полным набором настроек для ComfyUI в своём Telegram-канале и на Boosty.

Основные настройки для SwarmUI представлены ниже. На самом деле, в интерфейсе гораздо больше настроек, но если вы только начинаете знакомиться с нейросетями и интерфейсами, этих параметров будет достаточно, чтобы начать создавать собственные изображения с использованием SD 3.5.

Core parameters: (в зависимости от используемой модели)

Steps от 8 до 30+ \ CFG Scale от 1 до 5.5

Sampling:

sampler Euler + scheduler Simple\Beta или sampler DPM++2M + scheduler SGM Uniform

Image depicts a nighttime scene featuring a heavily damaged silver minivan, likely involved in a collision. The vehicle is positioned on a grassy area, with its front end severely crumpled and the windshield shattered. The airbags inside the car are deployed, visible through the windows. The left side of the vehicle shows significant impact damage, with the front wheel bent and the door panels crushed. The lighting in the image is dim, with a reddish hue possibly from emergency lights, casting shadows on the surrounding area. The background is dark, with faint outlines of trees or foliage, indicating a rural or suburban setting. No people are visible in the image, and there are no discernible logos or text present.

Advanced model addons: (подключать их нужно когда вы используете обычную, не AIO модель)

VAE sd3.5vae

CLIP-L Model clip_l.safetensors

CLIP-G Model clip_g.safetensors

T5-XXL Model t5xxl_fp16.safetensors или t5xxl_fp8 или t5-v1_1-xxl-encoder-Q8_0.gguf

the cosmic incarnation in the dream', in the style of realistic hyper-detailed portraits, vibrant energy, digital illustration, focus on joints/connections, sculptural alchemy, angelcore --ar 85:128 ,

В заключение хотелось бы отметить, что, несмотря на свои внушительные размеры и вес, Large модель является самой качественной, стабильной и точной. Она с лёгкостью генерирует реалистичные изображения и точно понимает, чего вы от неё хотите. Кроме того, при работе с ней возникает наименьшее количество ошибок, особенно при создании длинных текстов.

К сожалению, Medium модель меня не впечатлила. Я не заметил существенного прироста скорости генерации, а генерируемые изображения значительно хуже во всех аспектах.

Зато Turbo модель порадовала меня своей скоростью работы, высоким качеством изображений и способностью создавать художественные стили. Она больше подходит для создания ярких, насыщенных и порой непредсказуемых изображений, что можно считать скорее плюсом, чем минусом.

Если честно я не ожидал таких результатов. И если раньше моим фаворитом были модели Flux, то теперь я все больше провожу времени за Stable Diffusion 3.5.

Однако это лишь моё личное мнение, и только вам решать, какую модель использовать. Выбор должен основываться на ваших личных предпочтениях, целях и конфигурации вашего компьютера.

Удачных генераций и всего доброго.

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал (как зайти в дискорд без проблем и не только в дискорд вы можете почитать в моем телеграмме) и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.