Найти тему
75 подписчиков

Nvidia: представили Ctrl-X, фреймворк для генерации картинок по рефу.


Работает без промта (guidance-free) — через загрузку нужных примеров композиции и стиля. Но в отличии от похожих моделей на эту тему, в качестве рефа композиции могут выступать не только картинки, а объекты без текстур (например, 3D меши) и кондишены для контролнета (канни, нормали). Если что, промт тоже можно использовать: по нему будет сгенерирована картинка, которая пойдёт в пример структуры.

Фреймворк показывает себя лучше связки ControlNet + IP Adapter на задаче переноса стиля, там где много объектов. При этом чётче следуя заданной композиции.

Ctrl-X подключается к любым Text-2-Image моделям, не требует тренировки, и, по заверениям разрабов, шустр. Можно подрубить и к генераторам видео (в посте вариант на основе AnimateDiff), но об этом больше ничего не сказано.

Я пробовал установить, но некоторых паков нет на винду. Через WSL пока не получилось добить. У кого Linux, отпишитесь как потестите.

Около минуты