1 подписчик

Dall-E 2

20 апреля 202220 апр 2022

1 мин

В апреле 2022 года (спустя год с лишним после выпуска первой версии) OpenAI выпустила вторую версию генеративной модели: Dall-E 2. Новая версия нейронки вобрала в себя все самое лучшее: использует диффузионные части для генерации, оперирует на внутренних представлениях из CLIP, а также выдает изображения в более высоком разрешении. OpenAI заявляет, что новая модель предпочтительнее старой в контексте более подходящего описания по тексту и фотореализма в 72% и 89% случаев, соответственно. Модель умеет генерировать картинки по текстовому описанию, редактировать существующие изображения (тоже по текстовому описанию), а также “стилизовать” картинки по входу (видимо, находя по ним латентное представление и генерируя из него). Поиграться с примерами можно на сайте. По доброй традиции мощных моделей код, веса и API пока не выкладывают. Статья описывает общую архитектуру и довольно мощный ablation study, но тоже очень далека от критериев воспроизводимости. Доступ к API имеет 400 человек, из ни

В апреле 2022 года (спустя год с лишним после выпуска первой версии) OpenAI выпустила вторую версию генеративной модели: Dall-E 2.

Новая версия нейронки вобрала в себя все самое лучшее: использует диффузионные части для генерации, оперирует на внутренних представлениях из CLIP, а также выдает изображения в более высоком разрешении. OpenAI заявляет, что новая модель предпочтительнее старой в контексте более подходящего описания по тексту и фотореализма в 72% и 89% случаев, соответственно.

Слева: "панда безумный ученый, смешивает искрящиеся химикалии, artstation"
Справа: "голова корги, изображенная как взрыв туманностим" — Слева: "панда безумный ученый, смешивает искрящиеся химикалии, artstation" Справа: "голова корги, изображенная как взрыв туманностим"

Модель умеет генерировать картинки по текстовому описанию, редактировать существующие изображения (тоже по текстовому описанию), а также “стилизовать” картинки по входу (видимо, находя по ним латентное представление и генерируя из него). Поиграться с примерами можно на сайте.

Модель сгенерировала одну картинку мышей по другой

Модель добавляет корги на определенную часть изображения, выдерживая стиль

По доброй традиции мощных моделей код, веса и API пока не выкладывают. Статья описывает общую архитектуру и довольно мощный ablation study, но тоже очень далека от критериев воспроизводимости. Доступ к API имеет 400 человек, из них 365 – сотрудники OpenAI и “друзья компании”, 25 – исследователи, и 10 аккаунтов, связанных с искусством. Ребята очень серьезно относятся к проблеме дипфейков и схожим опасениям, поэтому пользователям предлагается ряд ограничений, в том числе запрещающих генерацию определенного контента (там 11 категорий) и коммерческое использование.

Несколько сгенерированных рисунков по описанию "ладонь с растущими из нее листьями крупным планом"

Конечно, до полного понимания пока далеко, и авторы явно приводят примеры в статье: текст на табличках пока пишется с трудом, и физические ограничения (например, по запросу “красный куб на синем кубе”) тоже не всегда выполняются.

Модель тщетно пытается сгенерировать "знак, на котором написано deep learning"

Модель рисует красный куб на синем и не всегда попадает

Но все равно он просто чертовски хорош, только посмотрите на эти картинки!

Плюшевый мишка на скейтборде на Times Square