Найти тему
76 подписчиков

Модель Würstchen обновилась до v2.


Работает в сжатом в 42 раза латентном пространстве, благодаря чему тренировка и генерация картинок требуют меньше мощностей и происходит быстрее.

Под капотом 3 стадии: первые две это VQGAN + Diffusion Autoencoder, которые разжимают изображение обратно в пиксельное пространство, а третья это приор, который обучается новым разрешениям изображений.

Würstchen v2 тренировали 24,602 GPU часов на датасете картинок разрешением 1024х1024 и 1536x1536 при поддержке Stability AI.

Демо (колаб)
Около минуты