В большинстве t2i моделей генерация осуществляется в сжатом латентном пространстве, а декодер (VAE) разворачивает полученное в пиксели в нужном разрешении. Однако такой декодер ориентирован на реконструкцию без генерации дополнительных деталей, и с увеличением целевого разрешения картинки значительно растут и требования к компьюту. PiD напрямую декодирует латенты в пиксельные изображения высокого разрешения, объединяя декод и апсемплинг в единый модуль. Это позволяет получить чёткие 2048×2048 или 4096х4096 картинки за несколько шагов. PiD декодирует 512х512 латент в 2048×2048 пикселей за ~1 сек на 5090 и потребляет 13 ГБ VRAM. Метод совместим с существующими моделями на основе VAE / RAE (Representation Autoencoder) и Nvidia предоставила чекпоинты для Flux, Flux 2, SD3, Dino v2, и Siglip. Z-image использует VAE от Flux поэтому отдельного чекпоинта нет, зато есть демо. Веса с 2К в названии натренированы из 512 латента выдавать пискельные 2048x2048, а 4К веса из 1024 латента 4096х4096.
Nvidia: представила PiD (Pixel Diffusion Decoder), декодер на основе диффузии пикселей
26 мая26 мая
6
1 мин