Базовая статья, на которую я планирую часто ссылаться, да бы не объяснять основы каждый раз. Поскольку достаточно часто путают понятия
Stable diffusion - модель для генерации изображений по текстовым описаниям prompt, созданная stability AI.
Интерфейсы управления
Все ниже перечисленные программы - могут запускаться на локальном компьютере, написаны на языке python, управление оболочкой осуществляется через веб интерфейс
Automatic1111 - Базовая, самая популярная программная оболочка для генерации изображений, использующая внутри себя модели Stable diffusion.
Fooocus - Аналог Automatic1111 с более простым в управлении интерфейсом. Часть возможных настроек скрыта
ComfyUi - Аналогичная панель управления генерацией изображений. Управление идет через создание схем взаимодействия составных частей для генератора и связывания их в единую цепь. По возможностям - это самый мощный инструмент, который обязательно следует освоить
Понятия используемые для генерации изображений
Промпт prompt - Текстовый запрос, набор токенов на основе которых будет сгенерирован результат
Токен - Смысловой блок, который определяется моделью для генерации определенных векторов. Это может быть как слово, так и несколько слов, так и знак препинания.
Checkpoint - Базовая модель, которая берется за основу при генерации изображения. Базовая модель всегда должна быть только в единственном экземпляре.
Лора Lora - Low-rank adaptation. Небольшие обученные модели, которые могут использоваться вместе с основной моделью. Соответственно лор при генерации может использоваться множество с разными весами, в том числе и в негатив промпте
Seed - Начальный шум, изображение первого кадра, который в дальнейшем используется нейросетью для наложения промпта
CFG scale - Classifier free guidance - Насколько сеть будет стремиться придерживаться текста в запросе. Насколько сильно каждый вектор будет применен к изображению. При большом значении - как правило повышается контрастность, часто изображение. При небольших значениях появляется больше мелких деталей, но это также и порождает множество артефактов.
Sampling method - Методы, с помощью которого пошагово (sampling steps) будет накладываться векторы промтов на исходное изображение. С каждым шагом будет происходить небольшое преобразование изображения в следующую его версию.
Hires fix (upscaler) - Алгоритм апскейла изображения. После генерации оригинального изображения - число пикселей в нем будет увеличено в "Upscaled by" раз при помощи алгоритма "Upscaler" с "Hires steps" числом шагов и с "Denoising strength" силой.
Upscale нужен, чтобы получить на выходе изображение с высоким расширением. Базовые модели SD1.5 были обучены для генерации изображений с расширением 512*512 пикселей (1024*1024 для XL модели), если указать расширение больше - изображение начнет повторяться, как будто несколько изображений склеили, иногда это сопровождается артефактами - на границе рамок. Hires срабатывает после полной генерации, когда по сути нужно 1 пиксель превратить в 2. В этом случае применяются совсем другие алгоритмы в отличие от генерации
VAE - variational autoencoder - Модель, которая применяется в финале генерации и накладывает на получаемый результат конечную обработку. Раскраску, детали, скрывает артефакты
CLIP skip - Параметр, позволяющий пропустить обработку последних слоёв при генерации изображений. Модели SD версии 1.5 имеют 12 уровней слоёв CLIP. На каждом уровне по иерархии содержится своя информация о каждом токене. К примеру на первом слое может находится расшифровка понятия Человек. На втором слое - уточнение - мужчина/женщина. На 3м слое - Уточняется возраст. и т.д.
Нет смысл пытаться нарисовать макияж на губах в начале генерации изображения, когда губ собственно ещё нету.
Указывая CLIP skip отличным от 0 - задается как бы точность конечных промптов.
Это всё понятия, которые известны и заданы человеком. В остальном - как и какие токены использовать на каких моделях и с какими настройками - это всё предмет для творчества и экспериментов