2724 подписчика

Нейросеть Stable Diffusion: оптимальные настройки и значения параметров

6 декабря 20226 дек 2022

10,9 тыс

5 мин

Оглавление

Основные настройки в генераторах SD:
1. Sampling Steps
2. Sampling Method

На результат генерации изображений в Stable Diffusion (SD) влияют:

Хороший запрос
Размер изображения
Уровень точного соответствия запросу
Количество этапов генерации изображения
Число картинок на выходе
Другие параметры

Хороший запрос — сложная часть использования Stable Diffusion, но есть несколько других настроек, которые кардинально меняют результаты.

Основные настройки в генераторах SD:

1. Sampling Steps

Sampling Steps (шаги сэмплирования) — количество шагов, которое сделает нейросеть, пока генерирует изображение. Начните с меньшего количества шагов и постепенно увеличивайте их количество.

Считается, что чем больше шагов, тем качественнее будет результат, но больше шагов — не всегда лучше. Хороший результат может получиться за небольшое количество шагов (30-50), а увеличение шагов может только исказить результат. К тому, чем больше шагов, тем дольше обрабатывается запрос. Среднее количество шагов — 50.

Рекомендация: если не устраивает какая-то часть изображения (например, глаза), лучше не увеличивать число шагов, а детализировать текстовый запрос относительно "уродливой" части картинки. Попробуйте добавить в запрос что-то вроде: "Highly detailed symmetrical eyes, fantastic eyes, unique eyes, gorgeous eyes, enchanting eyes" (симметричные глаза с высокой детализацией, фантастические глаза, уникальные глаза, великолепные глаза, очаровательные глаза).

Однако это не панацея. Глаза, лица и руки — пока очень сложные для нейросетей элементы.

2. Sampling Method

Sampling Method — это алгоритм создания изображения, влияющий на результат, скорость, требуемую видеопамять.

На скрине видны 17 алгоритмов (сэмплеров), но используются в основном только 4-5.

Для разных алгоритмов оптимальное число шагов различно. Безраздельно властвует среди сэмплеров — EULER A, 20-35 шагов.

Принципы работы сэмплеров можно посмотреть здесь.

Алгоритмы для генерации нейроиллюстраций в Stable Diffusion

НейроМагия | Будущее за AI8 декабря 2022

3. Height / Width

Width — ширина изображения

Height — высота изображения

Чем больше размер картинки, тем выше детализация. Но Stable Diffusion обучен на изображениях размером 512x512, поэтому генерирует изображения такого разрешения лучше всего. Если все-таки нужно поменять размер, то хотя бы один из этих параметров оставляйте — 512 пикселей.

Разрешение 704x512 или 512x704 подходит для пейзажей, портретов и создает исключительные изображения. В более высоких разрешениях часто дублируются руки, голова и другие части тела.

4. Restore faces

Restore faces — восстановление лица. Нужно поставить галочку возле этого параметра, если создаете портрет.

5. Batch count/Batch size

Batch count — количество наборов создаваемых изображений.

Batch size — количество изображений в наборе (обычно не используется).

6. CGF Scale

CGF Scale — «свобода» обработчика изображения. Этот параметр напрямую влияет на «креативность» изображения — на то, насколько точно результат будет соответствовать описанию, то есть насколько точно нейросеть будет придерживаться указанного поискового запроса.

Чем меньше цифра, тем больше нейросеть импровизирует, чем больше — тем точнее реализует текстовый запрос.

При малых значениях данного параметра у искуственного интеллекта (ИИ) будет больше выбор для креатива, поэтому при более низких значениях получаются более разнообразные изображения.

Итак, при значениях CGF 2-6 — ИИ творит, что хочет, CGF 7-11 — половину от запроса возьмет, половину "додумает" сама, CGF 12-15 — постарается учесть большую часть запроса, CGF 16+ — ИИ полностью учтет заданный запрос без каких-либо добавлений, то есть, что написали, то и реализует (но это не всегда).

Среднее значение CGF 7-8. Оптимальная креативность — CGF 8,5-12. Ключом для большинства запросов является CFG 5.

Если вы не уверены в правильности составленного запроса, то дайте Stable Diffusion свободу, установив невысокое значение параметра CFG Scale. Тогда нейронная сеть будет интерпретировать текстовое описание шире и не ограничится вашим запросом. Если вы уверены в своем запросе, ставьте значение больше.

Стоит отметить, что более высокое значение CFG часто требует большего количества шагов. При CFG 7 едва ли потребуется более 50 шагов, а изображение со 150 шагами выглядит идентично. А при CFG 15 изображение из 50 шагов может сильно отличаться от изображения из 150 шагов.

7. Seed

Seed — так называемое «зерно» или «семя» — стартовая точка, на которую опирается нейросеть при формировании изображения (сидов около 16 миллиардов). По умолчанию стоит случайный» параметр <-1> — это помогает достигать разнообразных результатов при одном и том же запросе. Если вам не важна повторяемость результата, то ставьте <-1>.

Параметр seed позволяет менять стартовую точку отрисовки изображения, изменять его стиль и уточнять начальный запрос. Если нужно улучшить текстовый запрос, следует зафиксировать какое-то конкретное стартовое число и не менять его.

Если вы используете конкретный номер сида, то даже при смене запроса изображение изменится незначительно.

Номер сида указан справа под картинкой (он появляется при нажатии на нее). Если при определенном сиде получился классный результат, рекомендуется скопировать номер сида в специальное поле, чтобы продолжить эксперименты над полученным изображением, изменяя параметры (например, количество шагов).

Например, у вас есть хороший запрос, по которому выводится красивый портрет «брюнетки». Если вам нужна "блондинка", возьмите сид этого конкретного изображения, чтобы оно оставалось стабильным, и измените в запросе "брюнетка" на «блондинка». На выходе получите изображение девушки в идентичной или похожей позе, но уже со светлыми волосами. Более высокий CFG (12-15) иногда может помочь в подобных случаях.

🌠 Если вы не уверены в собственных настройках, можно воспользоваться универсальной комбинацией параметров:

CFG — 8, Steps — 50, Sampler — LMS, Seed — -1

По умолчанию изображения сохраняются во вложенных папках в папке outputs в расположении, куда вы установили Stable Diffusion WebUI, но при желании автоматическое сохранение можно отключить на вкладке «Settings», в которой можно настроить и другие параметры.

Посмотрите, какие изображения можно создавать в SD:

Нейрофотографии созданы на основе запроса:

((alien)) ((имя модели)) from the (movie The Fifth Element 1998), octane rendering trends, 8k art photography, photorealistic concept art, soft, dramatic, photorealistic, perfect composition, beautiful detailed, intricate, insane detailed octane render popular on artstation, 8k art photography, photorealistic concept art, soft natural volumetric cinematic perfect light, chiaroscuro, award-winning photography, masterpiece

**********************************************************************************

P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки:

<<<Участвовать Бесплатно>>>

Kampus.ai: ваш интеллектуальный помощник в решении образовательных задач 24/7

НейроМагия | Эпоха AI 8 февраля