В апреле 2022 года (спустя год с лишним после выпуска первой версии) OpenAI выпустила вторую версию генеративной модели: Dall-E 2. Новая версия нейронки вобрала в себя все самое лучшее: использует диффузионные части для генерации, оперирует на внутренних представлениях из CLIP, а также выдает изображения в более высоком разрешении. OpenAI заявляет, что новая модель предпочтительнее старой в контексте более подходящего описания по тексту и фотореализма в 72% и 89% случаев, соответственно. Модель умеет генерировать картинки по текстовому описанию, редактировать существующие изображения (тоже по текстовому описанию), а также “стилизовать” картинки по входу (видимо, находя по ним латентное представление и генерируя из него). Поиграться с примерами можно на сайте. По доброй традиции мощных моделей код, веса и API пока не выкладывают. Статья описывает общую архитектуру и довольно мощный ablation study, но тоже очень далека от критериев воспроизводимости. Доступ к API имеет 400 человек, из ни