Недавно рассказывал про новую модель Dall-E 2 от OpenAI, но забыл упомянуть, что уже больше полугода существует нейронка на основе модели прошлого поколения (Dall-E) от Сбера: ruDall-E.
На самом деле было обучено несколько моделей, и обучались они неприлично долгое время (20 000 GPU-дней для самой большой модели Kandinsky, и 4 000 GPU-дней для открытой и популярной Malevich), но основной вехой стало то, что и веса, и код для обучения Сбер выложил в открытый доступ. И даже дал возможность поиграть с моделью всем желающим через телеграм-бота, который сейчас, увы, ставит ватермарки на новые изображения.
Сама модель была воспроизведена по чертежам из статьи (напомню, что OpenAI свои большие модели не выкладывает), и обучалась на большом наборе пар данных “картинка”-”описание”. До настоящих художников ей пока, конечно, далеко – нейронка плохо рисует человеческие лица, а также пишет непонятные символы вместо текста. Этим, однако, грешил и ее б̶о̶л̶ь̶ш̶о̶й̶ старший брат Dall-E, и есть различные объяснения таким эффектам – например, считается, что аугментация изображения зеркальным отражением слева направо не очень подходит для картинок с текстом.
Несмотря на это, модель хорошо подходит для генерации различных картин, набросков, логотипов, а также как источник вдохновения. Одним из интересных эффектов, замеченных русским ML-сообществом, стало то, что можно “улучшать” качество генерируемого изображения при помощи вспомогательных наборов слов, таких как “гиперреализм”, “высокое разрешение”, и даже “RTX ON” (проверьте в телеграм-боте!).
Аттракцион благотворительности не прошел даром для Сбера – кроме всеобщего признания и хайпа это позволило русским исследователям поиграться с мультимодальностью уже сейчас и для близких проектов. Ваш покорный слуга не стал исключением, и в ближайшем будущем вам будет предложено решить обратную задачу – угадать, какое текстовое описание сгенерировало данную картинку. А пока можно полюбоваться наилучшими сгенерированными изображениями в статье от авторов.