GLIDE - это закономерное развитие модели DALL-E от OpenAI. Только теперь вместо GAN-ов, архитектура GLIDE основана на diffussion denoising моделях, о которых у меня уже было несколько постов (тык1, тык2, тык3). GLIDE умеет генерировать изображения как по текстовому описанию с нуля, так и дополнять существующие. Поразительно, как моделька подстраивается под стиль и освещение во входной картинке, когда нужно дорисовать новый объект. Архитектура состоит из двух моделей, первая (3.5 млрд параметров) генерит 64×64 картинку по текстовой строке, а вторая (1.5 млрд параметров) берет входной текст и картинку 64×64 и апскейлит её до 256×256. Видимо, так было проще тренировать. GLIDE, в отличие от DALL-E, не использует CLIP классификатор и не требует ре-ранкинга результатов для увеличения их схожести со входным текстом. И, конечно, GLIDE бьёт DALL-E на всех бенчмарках. На GPU генерация 256x256 картинки занимает меньше минуты. Arxiv >> Код на GitHub >> Колаб #dataanalytics #software #datascientis
🔥Генерация изображений выходит на новый уровень: GLIDE
9 мая 20229 мая 2022
116
~1 мин