Найти тему
Нейро Арт

Эволюция Stable Diffusion

Оглавление

Конечно, у всех на слуху генеративные сети для создания изображений из текста, и пожалуй, самой известной стала Midjourney. Но в силу ценовой политики ее называют Мажорней, т.к. для массовой генерации изображений она дороговата. Да, сейчас конечно у многих нейронок есть бесплатные генерации, чтобы попробовать их в деле. Но в этой статье речь пойдет о по-настоящему народном продукте - нейросети Stable Diffusion, которую можно запустить на домашнем ПК, и генерировать картинки сколько душе угодно, хоть две.

Stable Diffusion прошла довольно долгий эволюционный путь, обросла комьюнити, породила тысячи дочерних моделей, заточенных под более узкий спектр картинок, например, под реалистичность, или под аниме-стилистику, и т.п.

Но далее мы будем смотреть, как развивались возможности этой нейросети на примере исходных моделей, без файнтьюна, а именно: SD 1.5, SD 2.1, SDXL и недавно вышедший FLUX (будем использовать FLUX.1 DEV). FLUX чисто технически не относится к линейке Stable Diffusion, но разработана бывшими создателями этой нейросети.

Итак, демонстрация будет включать генерацию изображений по простым промтам, "без наворотов", изображения для большего разнообразия будут: портрет, пейзаж, натюрморт, изображение с текстом. Специально не будем добавлять ключевые слова, улучшающие качество, такие как "best quality", "masterpiece" и прочие.

Собственно, промты:

1. Close-up portrait of Santa Claus

2. Lush garden at noon

3. Bouquet of pink lilies in a blue vase

4. A book on the desk, with a large title "Stable Diffusion"

SD 1.5

Родным разрешением для этой модели является 512x512.

Что тут сказать. Из коробки, с предельно простыми промтами, данная модель зачастую выдает жутковатые результаты. Налицо проблемы с анатомией, искажение объектов и прочие глюки. Но тем не менее, прелесть этой модели раскрылась в многочисленных улучшениях, доработках, различных вспомогательных моделях и нейронках, таких как LoRa или ControlNet.

SD 2.1

Родным разрешением для этой модели является 768x768.

У этой модели во многом сохраняются проблемы с анатомией, но уже заметен значительный прогресс в качестве картинки и первые попытки изобразить текст. Как бы то ни было, у сообщества данная модель не получила широкого признания, и на ней генерируют крайне мало.

SDXL

Родным разрешением для этой модели является 1024x1024.

Большим прорывом в качестве генерации картинок стал выход модели SDXL, которая научилась создавать изображения в разрешении 1024 на 1024, значительно лучше стала понимать промт, во многом ушли проблемы анатомии (но надо признать, лишние или отсутствующие пальцы по-прежнему попадаются). Ну и с текстом эта модель стала работать чуточку лучше - при должном терпении можно сгенерировать отдельные несложные слова.

FLUX 1.Dev

Родным разрешением для этой модели является 1024x1024.

FLUX внезапно ворвался в стройные ряды моделей для генерации изображений, и поразил всех качеством генерации изображений. Он умеет следовать сложным промтам со множеством объектов, понимает взаимное расположение объектов, отлично справляется с довольно сложным текстом из множества слов. А самое замечательное - все это можно развернуть локально на своем ПК и наслаждаться. Конечно, видеокарта должна быть с достаточным объемом памяти, т.к. сама модель весьма потяжелела, но оно того стоит!