Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

NVIDIA показала PiD: пиксельный диффузионный декодер, который меняет экономику генерации в 4K

NVIDIA представила PiD, новый декодер для генеративных моделей изображений. Идея в том, чтобы отказаться от привычной схемы VAE-декодер плюс отдельный апсемплер и превратить декодирование латентов сразу в условный пиксельный диффузионный процесс. То есть восстановление картинки и её увеличение происходят за один проход. По цифрам разработчики заявляют декодирование латента 512×512 сразу в пиксельный образ 2048×2048 меньше чем за секунду, поддержку апскейла от 4× до 8× при минимальной задержке, 210 мс на NVIDIA GB200 и в районе 6× ускорения в сравнении с каскадными схемами super-resolution. При этом качество по UniPercept IQA и Gemini-3-Flash Judge Win Rate выше, чем у Real-ESRGAN, LUA, InvSR-1, TSD-SR и SeedVR2. Почему это важно. Современные text-to-image модели (FLUX, DINOv2, SD3 и прочие) работают в сжатом латентном пространстве, это экономит время и память на самой генерации. Но когда речь идёт о выводе в 4K и выше, этап восстановления пикселей из латента и апсемплинга съедает осн

NVIDIA показала PiD: пиксельный диффузионный декодер, который меняет экономику генерации в 4K

NVIDIA представила PiD, новый декодер для генеративных моделей изображений. Идея в том, чтобы отказаться от привычной схемы VAE-декодер плюс отдельный апсемплер и превратить декодирование латентов сразу в условный пиксельный диффузионный процесс. То есть восстановление картинки и её увеличение происходят за один проход.

По цифрам разработчики заявляют декодирование латента 512×512 сразу в пиксельный образ 2048×2048 меньше чем за секунду, поддержку апскейла от 4× до 8× при минимальной задержке, 210 мс на NVIDIA GB200 и в районе 6× ускорения в сравнении с каскадными схемами super-resolution. При этом качество по UniPercept IQA и Gemini-3-Flash Judge Win Rate выше, чем у Real-ESRGAN, LUA, InvSR-1, TSD-SR и SeedVR2.

Почему это важно. Современные text-to-image модели (FLUX, DINOv2, SD3 и прочие) работают в сжатом латентном пространстве, это экономит время и память на самой генерации. Но когда речь идёт о выводе в 4K и выше, этап восстановления пикселей из латента и апсемплинга съедает основное время. PiD объединяет эти два шага в один.

Проектная страница NVIDIA: https://research.nvidia.com/labs/sil/projects/pid/