Здравствуйте, друзья!
Компания StabilityAI таки сдержала своё обещание и представила обновлённую версию Stable Diffusion 3.5. Предыдущая версия, как многие помнят, не оправдала ожиданий и быстро утратила свою популярность. На смену ей пришла версия 3.5, которая стала более стабильной и функциональной.
Модель SD 3.5 стала доступна 22 октября в версиях: Large, Turbo и 29 октября в версии Medium.
Модель Large работает с 8 миллиардами параметров, и оптимальные шаги генерации для неё начинаются от 30 и выше.
Turbo-версия также использует 8 миллиардов параметров, но с оптимальным количеством шагов от 8.
Модель Medium работает с 2,5 миллиардами параметров, с оптимальным количеством шагов также от 30.
Что даёт использование такого количества параметров?
- позволяет модели сосредоточиться на более тонких деталях и сложных структурах, что приводит к созданию реалистичных и высококачественных изображений.
- эти модели обладают улучшенной способностью обобщать закономерности в данных, что позволяет им создавать более разнообразные и уникальные изображения.
Однако обучение и использование таких моделей требует значительных вычислительных ресурсов: мощных графических процессоров (GPU), большого количества оперативной памяти (RAM), а иногда и специализированных графических процессоров для обучения и работы.
Большое количество параметров также увеличивает риск переобучения, особенно если количество данных для обучения недостаточно велико. Это может привести к генерации изображений, слишком похожих на тренировочные данные.
Но несмотря на эти минусы, большие модели могут лучше усваивать и комбинировать различные элементы из тренировочных данных, что позволяет создавать более интересные и уникальные изображения, включающие новые концепции и идеи.
Все перечисленные модели работают с использованием метода MMDIT, что означает «Multi-Modal Deep Inverse Transformations» — «Мульти-модальные глубокие обратные преобразования». В модели SD 3.5 Medium разработчики применили расширенную версию MMDIT-X (eXtended). По словам самих разработчиков, благодаря этому модель не сильно уступает старшим моделям по качеству генерируемых изображений, но значительно превосходит их по скорости генерации.
Что такое MMDIT и как он работает в генеративных нейросетях?
MMDIT (Multi-Modal Deep Inverse Transformations) — это метод, который используется в генеративных нейросетях для создания изображений. Основная идея заключается в том, чтобы использовать различные виды данных (например, текст и изображения) для обучения модели, которая может генерировать новые изображения на основе этих данных.
Многомодальные данные: Представьте, что у вас есть текстовое описание сцены и соответствующее ему изображение. Модель учится на таких парах данных, чтобы понимать, как текст связан с изображением.
Глубокие обратные преобразования: Модель использует нейронные сети для преобразования входных данных в изображения. Это как если бы модель училась рисовать картину по описанию.
Обучение модели: Модель обучается на большом наборе данных, где каждому текстовому описанию соответствует изображение. В процессе обучения модель учится понимать, как различные аспекты описания (например, цвета, объекты, сцены) связаны с изображением.
Генерация изображений: После обучения модель может использоваться для генерации новых изображений на основе новых текстовых описаний. Например, если вы дадите модели описание "Солнечный день на пляже с пальмами и морем", она сможет сгенерировать изображение, которое соответствует этому описанию.
Чтобы приступить к работе с новыми моделями SD 3.5, не нужно загружать дополнительные файлы, если вы уже использовали SD 3 или Flux. В этих моделях используется так называемый «тройной клип», который включает в себя три компонента: модель clip_l, модель clip_g и модель clip T5.
Главное отличие от предыдущей версии заключается в усовершенствованном автоэнкодере VAE. Как утверждают разработчики, благодаря этому процесс кодирования стал более эффективным. (ссылка на VAE для SD 3.5 будет ниже)
Чтобы лучше понять, что такое «clip», я приведу несколько простых объяснений:
CLIP (Contrastive Language-Image Pre-training) — это модель, которая объединяет текстовые и визуальные данные для обучения. Основная идея CLIP заключается в том, чтобы обучить модель на огромном количестве пар текст-изображение. Благодаря этому она учится понимать связь между текстом и изображениями и может различать, какой текст соответствует какому изображению.
T5 (Text-to-Text Transfer Transformer) — это модель, использующая архитектуру трансформера для решения различных задач обработки естественного языка (NLP). Основная идея T5 заключается в том, чтобы преобразовать все задачи NLP в задачу перевода текста в текст.
Требования к конфигурации ПК для моделей SD 3.5 также остались практически неизменными, хотя сами модели стали менее требовательными, чем раньше.
Согласно отзывам пользователей, Turbo и Medium модели вполне комфортно работают с 8 гигабайтами видеопамяти, и даже 6 гигабайт будет достаточно при работе с Turbo моделью. Однако для Large модели требования уже более серьёзные.
Я протестировал Large модель на 10 гигабайтах видеопамяти. Процесс генерации изображений при 30 шагах и размере изображения 1280х720 пикселей занимает в среднем около 1 минуты 40 секунд. Это не быстро, но работает.
С Turbo моделью всё намного приятнее: 8 шагов пролетают всего за 20-30 секунд в зависимости от настроек и разрешения генерируемого изображения. С Medium моделью уходит больше времени — порядка минуты. Я не могу сказать, что младшие модели значительно уступают старшей по следованию промпту или качеству изображения. Конечно, различия есть. И с некоторыми промптами они ощутимы, но не стоит забывать и о скорости генерации моделей. А для многих скорость генерации это чуть ли не главный фактор.
В настоящее время существует несколько форматов моделей SD 3.5. Самая большая из них - FP16, которая требует значительного объёма видеопамяти, но при этом обеспечивает максимальное качество, согласованность и точное следование запросу. Далее FP8 модель, хоть и легче, остаётся достаточно объёмной и также требует много видеопамяти. Кроме того, уже существует множество квантованных моделей, которые требуют от 6 до 12 ГБ видеопамяти. Также есть так называемые AIO-модели (all-in-one), которые включают в себя clip_l, clip_g, t5 и vae. Для их использования не требуется дополнительно загружать и подключать какие-либо дополнительные компоненты. Посмотреть и выбрать для себя модели вы как всегда можете посетив ресурс Civitai.com. (не забывайте пользоваться поиском)
Думаю, с теорией всё понятно, перейдём к практике. Здесь тоже всё остаётся по-прежнему: вы сможете работать с моделями SD 3.5 в тех же интерфейсах, что и с моделями SD 3 — ComfyUI и Stable SwarmUI.
Я не вижу смысла подробно описывать процесс установки. Если вы ранее читали мои статьи о SD3, то, вероятно, уже установили эти интерфейсы. Если же нет, то ознакомиться с процессом установки и настройки сможете тут.
Я делился рабочими пространствами с полным набором настроек для ComfyUI в своём Telegram-канале и на Boosty.
Основные настройки для SwarmUI представлены ниже. На самом деле, в интерфейсе гораздо больше настроек, но если вы только начинаете знакомиться с нейросетями и интерфейсами, этих параметров будет достаточно, чтобы начать создавать собственные изображения с использованием SD 3.5.
Core parameters: (в зависимости от используемой модели)
Steps от 8 до 30+ \ CFG Scale от 1 до 5.5
Sampling:
sampler Euler + scheduler Simple\Beta или sampler DPM++2M + scheduler SGM Uniform
Advanced model addons: (подключать их нужно когда вы используете обычную, не AIO модель)
VAE sd3.5vae
CLIP-L Model clip_l.safetensors
CLIP-G Model clip_g.safetensors
T5-XXL Model t5xxl_fp16.safetensors или t5xxl_fp8 или t5-v1_1-xxl-encoder-Q8_0.gguf
В заключение хотелось бы отметить, что, несмотря на свои внушительные размеры и вес, Large модель является самой качественной, стабильной и точной. Она с лёгкостью генерирует реалистичные изображения и точно понимает, чего вы от неё хотите. Кроме того, при работе с ней возникает наименьшее количество ошибок, особенно при создании длинных текстов.
К сожалению, Medium модель меня не впечатлила. Я не заметил существенного прироста скорости генерации, а генерируемые изображения значительно хуже во всех аспектах.
Зато Turbo модель порадовала меня своей скоростью работы, высоким качеством изображений и способностью создавать художественные стили. Она больше подходит для создания ярких, насыщенных и порой непредсказуемых изображений, что можно считать скорее плюсом, чем минусом.
Если честно я не ожидал таких результатов. И если раньше моим фаворитом были модели Flux, то теперь я все больше провожу времени за Stable Diffusion 3.5.
Однако это лишь моё личное мнение, и только вам решать, какую модель использовать. Выбор должен основываться на ваших личных предпочтениях, целях и конфигурации вашего компьютера.
Удачных генераций и всего доброго.
Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал (как зайти в дискорд без проблем и не только в дискорд вы можете почитать в моем телеграмме) и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.