DALL·E 2 — это новая система искусственного интеллекта, которая может создавать реалистичные изображения и рисунки из описания на естественном языке.
При генерации изображения. DALL·E 2 использует эмбеддинги CLIP для генерации вектора текста. Для генерации изображений используют не VAE а диффузию (GLIDE).
Скорее всего модель будет доступна по API.
DALL·E 2 объяснение: https://vimeo.com/692375454