Добавить в корзинуПозвонить
Найти в Дзене
Fooocus Prompts 🔥

Настраиваем Fooocus: VAE — cупер результат на постпродакшене

Как сделать результаты генерации сочнее? Сегодня сделаем ещё один шаг к профессиональной генерации изображений и поговорим о VAE. Мы разберём его роль в SDXL, избегая сложных технических деталей, и посмотрим, как эти знания могут помочь на практике. Если со временем Fooocus вам станет «тесен», вы сможете освоить более специфичные инструменты, уже понимая, как работает VAE. На техническом уровне VAE (Variational Autoencoder) — это нейросеть, которую обучают создавать новые изображения, похожие на те, что она видела ранее. Однако нас интересует роль VAE в процессе генерации изображений. Когда мы вводим текстовый запрос (промт), диффузионная модель SDXL сначала работает с латентным пространством — где изображения представлены в виде числовых данных, называемых латентными векторами. Модель начинает с зашумленного латентного представления и шаг за шагом убирает шум, приближая эти числа к финальному изображению. Этот процесс называется сэмплированием и позволяет модели генерировать разные ка
Оглавление

Как сделать результаты генерации сочнее? Сегодня сделаем ещё один шаг к профессиональной генерации изображений и поговорим о VAE. Мы разберём его роль в SDXL, избегая сложных технических деталей, и посмотрим, как эти знания могут помочь на практике. Если со временем Fooocus вам станет «тесен», вы сможете освоить более специфичные инструменты, уже понимая, как работает VAE.

Щепотка хорошего VAE для контраста
Щепотка хорошего VAE для контраста

Технический уровень

На техническом уровне VAE (Variational Autoencoder) — это нейросеть, которую обучают создавать новые изображения, похожие на те, что она видела ранее. Однако нас интересует роль VAE в процессе генерации изображений.

Когда мы вводим текстовый запрос (промт), диффузионная модель SDXL сначала работает с латентным пространством — где изображения представлены в виде числовых данных, называемых латентными векторами. Модель начинает с зашумленного латентного представления и шаг за шагом убирает шум, приближая эти числа к финальному изображению. Этот процесс называется сэмплированием и позволяет модели генерировать разные картинки каждый раз. То, что мы видим, как изображение постепенно проявляется из шума, — это работа диффузионной модели, очищающей латентные векторы. Наглядная демонстрация 👇

Процесс работы диффузионной модели и VAE
Процесс работы диффузионной модели и VAE

Обратите внимание, как на последнем этапе из ещё неясного изображения внезапно возникает законченное. Это работа VAE. На финальном этапе подключается VAE, который декодирует очищенное латентное представление в полноценное изображение. Проще говоря, VAE — это последний шаг, превращающий числовое представление в картинку с полной детализацией. У дизайнера работа VAE может ассоциироваться с «отделом постпродакшна», который сглаживает неровности и улучшает детали, делая изображение завершённым.

Как влияют различные VAE на результат

VAE — это нейросеть, которую обучают. И результаты работы разных VAE, обученных по разному, будут отличаться.

Рассмотрим различия на примере SDXL модели MOHAWK_v20. Кстати, запросы, которые я использовал в примерах можно найти в моём телеграм канале. Подписывайтесь, там много интересного.

Пример с использованием дефолтной VAE и отдельно подключаемой «sdxlVAE_sdxlVAE» VAE 👇

MOHAWK_v20 с VAE по умолчанию и MOHAWK_v20 с VAE: sdxlVAE_sdxlVAE
MOHAWK_v20 с VAE по умолчанию и MOHAWK_v20 с VAE: sdxlVAE_sdxlVAE
SDXL VAE - SDXL-VAE | Stable Diffusion VAE | Civitai

Пример работы другой VAE «sharpspectrumvaexl_v1» с более глубоким контрастом 👇

MOHAWK_v20 с VAE по умолчанию и MOHAWK_v20 с VAE: sharpspectrumvaexl_v1
MOHAWK_v20 с VAE по умолчанию и MOHAWK_v20 с VAE: sharpspectrumvaexl_v1
SharpSpectrumVAEXL - v1 | Stable Diffusion VAE | Civitai

Сравним оба примера с подключаемыми VAE 👇

MOHAWK_v20 с VAE: sdxlVAE_sdxlVAE и MOHAWK_v20 с VAE: sharpspectrumvaexl_v1
MOHAWK_v20 с VAE: sdxlVAE_sdxlVAE и MOHAWK_v20 с VAE: sharpspectrumvaexl_v1

Встроенный VAE

Как вы уже поняли, все модели SDXL уже содержат встроенный VAE, но иногда можно встретить модели с запечённым VAE (например, MOHAWK_v20BackedVAE). Это значит, что непосредственно в самой модели VAE уже дообучен 👇

MOHAWK_v20 и MOHAWK_v20BackedVAE
MOHAWK_v20 и MOHAWK_v20BackedVAE
_MOHAWK_ - v2.0 | Stable Diffusion Checkpoint | Civitai

Посмотрите как различаются версии модели без и с доработанной VAE в самой модели 👇

MOHAWK_v20 и MOHAWK_v20BackedVAE
MOHAWK_v20 и MOHAWK_v20BackedVAE

Настраиваем VAE в Fooocus

Я предпочитаю в работе уже донастроенные модели, но в целом большинство моделей SDXL имеют низкую контрастность, поэтому полезно иметь пару VAE под рукой. VAE хранится в следующей папке в Fooocus 👇

Директория с моделями VAE в папке Fooocus
Директория с моделями VAE в папке Fooocus

Чтобы найти список нажмите «Advanced» (1) и перейдите на вкладку «Advanced» (2) и выберите «Developer Debug Mode» (3). Во вкладке «Debug Tools» (4) найдите параметр «VAE» (5). По умолчанию Fooocus использует VAE от используемой вами базовой модели, поэтому в списке будет только «Default (model)» 👇

Настройки VAE в интерфейсе Fooocus
Настройки VAE в интерфейсе Fooocus

Выше я приводил ссылки на VAE из примеров, но вы можете найти свои. VAE, как и любые другие модели можно найти как и LoRA. Похожий процесс я описывал здесь для LoRAs 👇

Рекомендую хранить модели, в т.ч. VAE в отдельной папке, поэтому донастройте Fooocus так, чтобы он брал модели из нужной папки. Это удобно, если в дальнейшем вы будете пользоваться иными интерфейсами для генерации изображений и использовать те же, уже скаченные ранее модели.

С помощью текстового редактора откройте файл config.txt, находящийся в директории: ...\Fooocus_win64_2-6-0\Fooocus

Файл config.txt настроек Fooocus
Файл config.txt настроек Fooocus

В строке "path_vae" откройте квадратную скобку (1), оставьте строку с путём VAE по умолчанию и поставьте запятую после неё (2). Затем с новой строки укажите дополнительную директорию, в которой Fooocus будет искать ваши VAE (3). Обратите внимание, что для указания пути используются двойные обратные косые черты «\\», а после последней строки не ставится запятая (3). После этого с новой строки закройте квадратную скобку и поставьте запятую (4). Должно выглядеть примерно так 👇

Пользовательская директория с VAE моделями в настройках Fooocus
Пользовательская директория с VAE моделями в настройках Fooocus

Теперь при следующем запуске Fooocus будет искать модели VAE в указанной вами директории. А в списке настроек вы сможете найти и использовать загруженные вами модели VAE.

Итоги

На мой взгляд, многие модели SDXL не обеспечивают достаточной контрастности. Иногда вам может показаться, что вы можете улучшить результаты. В таком случае стоит рассмотреть возможность использования другой модели VAE.

Использование VAE для улучшения генерации
Использование VAE для улучшения генерации

VAE играет важную роль в создании итогового результата, поэтому её использование не ограничивается только повышением контраста. Она влияет на множество аспектов изображения, включая детализацию, глубину цвета, баланс оттенков и многое другое.

И, да, подписывайтесь на канал, чтобы не пропустить важные практические советы по работе с Fooocus. И на мой телеграм канал, где я выкладываю авторские промты для SDXL моделей.