Найти в Дзене

ruDall-E

⁠⁠Недавно рассказывал про новую модель Dall-E 2 от OpenAI, но забыл упомянуть, что уже больше полугода существует нейронка на основе модели прошлого поколения (Dall-E) от Сбера: ruDall-E.

"радужная сова"
"радужная сова"

На самом деле было обучено несколько моделей, и обучались они неприлично долгое время (20 000 GPU-дней для самой большой модели Kandinsky, и 4 000 GPU-дней для открытой и популярной Malevich), но основной вехой стало то, что и веса, и код для обучения Сбер выложил в открытый доступ. И даже дал возможность поиграть с моделью всем желающим через телеграм-бота, который сейчас, увы, ставит ватермарки на новые изображения.

Сама модель была воспроизведена по чертежам из статьи (напомню, что OpenAI свои большие модели не выкладывает), и обучалась на большом наборе пар данных “картинка”-”описание”. До настоящих художников ей пока, конечно, далеко – нейронка плохо рисует человеческие лица, а также пишет непонятные символы вместо текста. Этим, однако, грешил и ее б̶о̶л̶ь̶ш̶о̶й̶ старший брат Dall-E, и есть различные объяснения таким эффектам – например, считается, что аугментация изображения зеркальным отражением слева направо не очень подходит для картинок с текстом.

"праздник к нам приходит"
"праздник к нам приходит"

Несмотря на это, модель хорошо подходит для генерации различных картин, набросков, логотипов, а также как источник вдохновения. Одним из интересных эффектов, замеченных русским ML-сообществом, стало то, что можно “улучшать” качество генерируемого изображения при помощи вспомогательных наборов слов, таких как “гиперреализм”, “высокое разрешение”, и даже “RTX ON” (проверьте в телеграм-боте!).

"красивое озеро на закате"
"красивое озеро на закате"

Аттракцион благотворительности не прошел даром для Сбера – кроме всеобщего признания и хайпа это позволило русским исследователям поиграться с мультимодальностью уже сейчас и для близких проектов. Ваш покорный слуга не стал исключением, и в ближайшем будущем вам будет предложено решить обратную задачу – угадать, какое текстовое описание сгенерировало данную картинку. А пока можно полюбоваться наилучшими сгенерированными изображениями в статье от авторов.