Найти тему
Машинное обучение

🔥Генерация изображений выходит на новый уровень: GLIDE

GLIDE - это закономерное развитие модели DALL-E от OpenAI. Только теперь вместо GAN-ов, архитектура GLIDE основана на diffussion denoising моделях, о которых у меня уже было несколько постов (тык1, тык2, тык3).

GLIDE умеет генерировать изображения как по текстовому описанию с нуля, так и дополнять существующие. Поразительно, как моделька подстраивается под стиль и освещение во входной картинке, когда нужно дорисовать новый объект.

Архитектура состоит из двух моделей, первая (3.5 млрд параметров) генерит 64×64 картинку по текстовой строке, а вторая (1.5 млрд параметров) берет входной текст и картинку 64×64 и апскейлит её до 256×256. Видимо, так было проще тренировать.

GLIDE, в отличие от DALL-E, не использует CLIP классификатор и не требует ре-ранкинга результатов для увеличения их схожести со входным текстом. И, конечно, GLIDE бьёт DALL-E на всех бенчмарках.

На GPU генерация 256x256 картинки занимает меньше минуты.

Arxiv >> Код на GitHub >> Колаб

#dataanalytics #software #datascientist #javascript #iot #java #coder #ml #innovation #robotics