Добавить в корзинуПозвонить
Найти в Дзене
Psy Eyes

Nvidia: представила PiD (Pixel Diffusion Decoder), декодер на основе диффузии пикселей

В большинстве t2i моделей генерация осуществляется в сжатом латентном пространстве, а декодер (VAE) разворачивает полученное в пиксели в нужном разрешении. Однако такой декодер ориентирован на реконструкцию без генерации дополнительных деталей, и с увеличением целевого разрешения картинки значительно растут и требования к компьюту. PiD напрямую декодирует латенты в пиксельные изображения высокого разрешения, объединяя декод и апсемплинг в единый модуль. Это позволяет получить чёткие 2048×2048 или 4096х4096 картинки за несколько шагов. PiD декодирует 512х512 латент в 2048×2048 пикселей за ~1 сек на 5090 и потребляет 13 ГБ VRAM. Метод совместим с существующими моделями на основе VAE / RAE (Representation Autoencoder) и Nvidia предоставила чекпоинты для Flux, Flux 2, SD3, Dino v2, и Siglip. Z-image использует VAE от Flux поэтому отдельного чекпоинта нет, зато есть демо. Веса с 2К в названии натренированы из 512 латента выдавать пискельные 2048x2048, а 4К веса из 1024 латента 4096х4096.

Nvidia: представила PiD (Pixel Diffusion Decoder), декодер на основе диффузии пикселей.

В большинстве t2i моделей генерация осуществляется в сжатом латентном пространстве, а декодер (VAE) разворачивает полученное в пиксели в нужном разрешении. Однако такой декодер ориентирован на реконструкцию без генерации дополнительных деталей, и с увеличением целевого разрешения картинки значительно растут и требования к компьюту.

PiD напрямую декодирует латенты в пиксельные изображения высокого разрешения, объединяя декод и апсемплинг в единый модуль. Это позволяет получить чёткие 2048×2048 или 4096х4096 картинки за несколько шагов. PiD декодирует 512х512 латент в 2048×2048 пикселей за ~1 сек на 5090 и потребляет 13 ГБ VRAM.

Метод совместим с существующими моделями на основе VAE / RAE (Representation Autoencoder) и Nvidia предоставила чекпоинты для Flux, Flux 2, SD3, Dino v2, и Siglip. Z-image использует VAE от Flux поэтому отдельного чекпоинта нет, зато есть демо. Веса с 2К в названии натренированы из 512 латента выдавать пискельные 2048x2048, а 4К веса из 1024 латента 4096х4096.

Kijai недавно официально присоединился к мейнтейнерам кода в Comfy. Поддержка PiD в работе, тестовый воркфлоу уже есть. И на реддите тоже появились ноды.

Демо (Z-image)

Сайт

Гитхаб

Comfy воркфлоу

Хаггинг

-2
-3
-4
-5
-6
-7