76 подписчиков
Модель Würstchen обновилась до v2.
Работает в сжатом в 42 раза латентном пространстве, благодаря чему тренировка и генерация картинок требуют меньше мощностей и происходит быстрее.
Под капотом 3 стадии: первые две это VQGAN + Diffusion Autoencoder, которые разжимают изображение обратно в пиксельное пространство, а третья это приор, который обучается новым разрешениям изображений.
Würstchen v2 тренировали 24,602 GPU часов на датасете картинок разрешением 1024х1024 и 1536x1536 при поддержке Stability AI.
Демо (HF)
Демо (колаб)
Около минуты
16 сентября 2023