77 подписчиков
Две модели с улучшенным следованием промту для генерации картинки:
PixArt-Sigma: может без апскейлера быстро выдавать изображения в разрешении 4К, не смотря на малый размер в 0.6B (для сравнения у SDXL 2.6B, а у Cascade 5.1B). Основана на архитектуре Weak-to-Strong, где слабая базовая модель становится сильной за счёт тренировки на высококачественных данных с детальной разметкой.
ELLA: в этом методе, генераторы картинок соединяют с языковыми моделями (LLM), которые улучшают текстовый промт. Чтобы соединить две разные нейронки, используется адаптер (TSC), который берёт с временными метками детальное текстовое описание из LLM и подмешивает его в процессе генерации изображения. Код выпущен только под модели на SD 1.5, а под SDXL выпускать не будут, хотя на сайте проекта оно есть. Имеется ComfyUI нода.
Около минуты
17 апреля 2024