14 подписчиков

Эволюция Stable Diffusion

2 октября 20242 окт 2024

2 мин

Оглавление

SD 1.5
SD 2.1
SDXL

Конечно, у всех на слуху генеративные сети для создания изображений из текста, и пожалуй, самой известной стала Midjourney. Но в силу ценовой политики ее называют Мажорней, т.к. для массовой генерации изображений она дороговата. Да, сейчас конечно у многих нейронок есть бесплатные генерации, чтобы попробовать их в деле. Но в этой статье речь пойдет о по-настоящему народном продукте - нейросети Stable Diffusion, которую можно запустить на домашнем ПК, и генерировать картинки сколько душе угодно, ~~хоть две~~.

Stable Diffusion прошла довольно долгий эволюционный путь, обросла комьюнити, породила тысячи дочерних моделей, заточенных под более узкий спектр картинок, например, под реалистичность, или под аниме-стилистику, и т.п.

Но далее мы будем смотреть, как развивались возможности этой нейросети на примере исходных моделей, без файнтьюна, а именно: SD 1.5, SD 2.1, SDXL и недавно вышедший FLUX (будем использовать FLUX.1 DEV). FLUX чисто технически не относится к линейке Stable Diffusion, но разработана бывшими создателями этой нейросети.

Итак, демонстрация будет включать генерацию изображений по простым промтам, "без наворотов", изображения для большего разнообразия будут: портрет, пейзаж, натюрморт, изображение с текстом. Специально не будем добавлять ключевые слова, улучшающие качество, такие как "best quality", "masterpiece" и прочие.

Собственно, промты:

1. Close-up portrait of Santa Claus

2. Lush garden at noon

3. Bouquet of pink lilies in a blue vase

4. A book on the desk, with a large title "Stable Diffusion"

SD 1.5

Родным разрешением для этой модели является 512x512.

Что тут сказать. Из коробки, с предельно простыми промтами, данная модель зачастую выдает жутковатые результаты. Налицо проблемы с анатомией, искажение объектов и прочие глюки. Но тем не менее, прелесть этой модели раскрылась в многочисленных улучшениях, доработках, различных вспомогательных моделях и нейронках, таких как LoRa или ControlNet.

SD 2.1

Родным разрешением для этой модели является 768x768.

У этой модели во многом сохраняются проблемы с анатомией, но уже заметен значительный прогресс в качестве картинки и первые попытки изобразить текст. Как бы то ни было, у сообщества данная модель не получила широкого признания, и на ней генерируют крайне мало.

SDXL

Родным разрешением для этой модели является 1024x1024.

Большим прорывом в качестве генерации картинок стал выход модели SDXL, которая научилась создавать изображения в разрешении 1024 на 1024, значительно лучше стала понимать промт, во многом ушли проблемы анатомии (но надо признать, лишние или отсутствующие пальцы по-прежнему попадаются). Ну и с текстом эта модель стала работать чуточку лучше - при должном терпении можно сгенерировать отдельные несложные слова.

FLUX 1.Dev

Родным разрешением для этой модели является 1024x1024.

FLUX внезапно ворвался в стройные ряды моделей для генерации изображений, и поразил всех качеством генерации изображений. Он умеет следовать сложным промтам со множеством объектов, понимает взаимное расположение объектов, отлично справляется с довольно сложным текстом из множества слов. А самое замечательное - все это можно развернуть локально на своем ПК и наслаждаться. Конечно, видеокарта должна быть с достаточным объемом памяти, т.к. сама модель весьма потяжелела, но оно того стоит!