77 подписчиков

Две модели с улучшенным следованием промту для генерации картинки:

PixArt-Sigma: может без апскейлера быстро выдавать изображения в разрешении 4К, не смотря на малый размер в 0.6B (для сравнения у SDXL 2.6B, а у Cascade 5.1B). Основана на архитектуре Weak-to-Strong, где слабая базовая модель становится сильной за счёт тренировки на высококачественных данных с детальной разметкой.

Демо // Сайт // Гитхаб

ELLA: в этом методе, генераторы картинок соединяют с языковыми моделями (LLM), которые улучшают текстовый промт. Чтобы соединить две разные нейронки, используется адаптер (TSC), который берёт с временными метками детальное текстовое описание из LLM и подмешивает его в процессе генерации изображения. Код выпущен только под модели на SD 1.5, а под SDXL выпускать не будут, хотя на сайте проекта оно есть. Имеется ComfyUI нода.

Сайт // Гитхаб // ComfyUI

Около минуты

17 апреля 2024