Найти в Дзене

Dall-E 2

В апреле 2022 года (спустя год с лишним после выпуска первой версии) OpenAI выпустила вторую версию генеративной модели: Dall-E 2. Новая версия нейронки вобрала в себя все самое лучшее: использует диффузионные части для генерации, оперирует на внутренних представлениях из CLIP, а также выдает изображения в более высоком разрешении. OpenAI заявляет, что новая модель предпочтительнее старой в контексте более подходящего описания по тексту и фотореализма в 72% и 89% случаев, соответственно. Модель умеет генерировать картинки по текстовому описанию, редактировать существующие изображения (тоже по текстовому описанию), а также “стилизовать” картинки по входу (видимо, находя по ним латентное представление и генерируя из него). Поиграться с примерами можно на сайте. По доброй традиции мощных моделей код, веса и API пока не выкладывают. Статья описывает общую архитектуру и довольно мощный ablation study, но тоже очень далека от критериев воспроизводимости. Доступ к API имеет 400 человек, из ни

В апреле 2022 года (спустя год с лишним после выпуска первой версии) OpenAI выпустила вторую версию генеративной модели: Dall-E 2.

Dalle-E генерирует картинки по тексту "яркий портрет картина Сальвадора Дали с роботизированной половиной лица"
Dalle-E генерирует картинки по тексту "яркий портрет картина Сальвадора Дали с роботизированной половиной лица"

Новая версия нейронки вобрала в себя все самое лучшее: использует диффузионные части для генерации, оперирует на внутренних представлениях из CLIP, а также выдает изображения в более высоком разрешении. OpenAI заявляет, что новая модель предпочтительнее старой в контексте более подходящего описания по тексту и фотореализма в 72% и 89% случаев, соответственно.

Слева: "дельфин в скафандре на Сатурне, artstation"  (это такой сайт для художников)
Справа: "пропагандический постер, изображающий кота, одетого как французский император Наполеон, который держит кусок сыра"
Слева: "дельфин в скафандре на Сатурне, artstation" (это такой сайт для художников) Справа: "пропагандический постер, изображающий кота, одетого как французский император Наполеон, который держит кусок сыра"
Слева: "панда безумный ученый, смешивает искрящиеся химикалии, artstation"
Справа: "голова корги, изображенная как взрыв туманностим"
Слева: "панда безумный ученый, смешивает искрящиеся химикалии, artstation" Справа: "голова корги, изображенная как взрыв туманностим"

Модель умеет генерировать картинки по текстовому описанию, редактировать существующие изображения (тоже по текстовому описанию), а также “стилизовать” картинки по входу (видимо, находя по ним латентное представление и генерируя из него). Поиграться с примерами можно на сайте.

Модель сгенерировала одну картинку мышей по другой
Модель сгенерировала одну картинку мышей по другой
Модель добавляет корги на определенную часть изображения, выдерживая стиль
Модель добавляет корги на определенную часть изображения, выдерживая стиль

По доброй традиции мощных моделей код, веса и API пока не выкладывают. Статья описывает общую архитектуру и довольно мощный ablation study, но тоже очень далека от критериев воспроизводимости. Доступ к API имеет 400 человек, из них 365 – сотрудники OpenAI и “друзья компании”, 25 – исследователи, и 10 аккаунтов, связанных с искусством. Ребята очень серьезно относятся к проблеме дипфейков и схожим опасениям, поэтому пользователям предлагается ряд ограничений, в том числе запрещающих генерацию определенного контента (там 11 категорий) и коммерческое использование.

Несколько сгенерированных рисунков по описанию "ладонь с растущими из нее листьями крупным планом"
Несколько сгенерированных рисунков по описанию "ладонь с растущими из нее листьями крупным планом"

Конечно, до полного понимания пока далеко, и авторы явно приводят примеры в статье: текст на табличках пока пишется с трудом, и физические ограничения (например, по запросу “красный куб на синем кубе”) тоже не всегда выполняются.

Модель тщетно пытается сгенерировать "знак, на котором написано deep learning"
Модель тщетно пытается сгенерировать "знак, на котором написано deep learning"
Модель рисует красный куб на синем и не всегда попадает
Модель рисует красный куб на синем и не всегда попадает

Но все равно он просто чертовски хорош, только посмотрите на эти картинки!

Плюшевый мишка на скейтборде на Times Square
Плюшевый мишка на скейтборде на Times Square