Одно из главных событий последнего времени — это, конечно, выход DALL-E 2. DALL-E 2 — это новая модель для генерации изображений по текстому описанию (и не только, об этом подробнее в постах ниже), которая показывает результаты просто шикарного качества 🔥 Давайте попытаемся разобраться, что же это за штука, как она работает и поглазеем на результаты =) 1. Путь от DALL-E к DALL-E 2 Если помните, DALL-E — это модель для генерации изображений по текстовому описанию. Первую версию DALL-E представили OpenAI в самом начале 2021 года. Эта модель была основана на архитектурах VAE и Transformer и ее очень грубо можно было описать как "GPT-3 для генерации картинок". Почитать подробнее о первой DALL-E можно в блоге OpenAI и в статье на архиве. Примерно в то же время тот же OpenAI выпустил CLIP — мультимодальную модель, которая работает с картинками и текстом и маппит картинки и текст в одно общее пространство эмбеддингов. Такую модель можно использовать для решения многих задач, связанных с карт