Найти в Дзене
НейроМагия | Эпоха AI

Нейросети DALL-E 3 и Stable Diffusion XL: их преимущества и недостатки

В конце сентября 2023 года компания OpenAI представила третье поколение нейросети Dall-E — конкурента Midjourney и Stable Diffusion, а публичный доступ к ней открылся в начале октября. DALL-E 3 — модель искусственного интеллекта для преобразования текста в изображение, которую можно использовать с ChatGPT. Она поддерживает русский язык и понимает естественную речь. В этой статье мы сравним DALL-E 3 со Stable Diffusion XL, чтобы увидеть превосходства каждой модели. Основное улучшение в DALL-E 3 — генерация изображений, точно соответствующих текстовому запросу. Для использования DALL-E 3 потребуется подписаться на ChatGPT Plus. Выполните следующие действия, чтобы использовать DALL- E 3: 2. Нажмите кнопку GPT-4 вверху и выберите DALL-E 3. 3. Введите описание изображения (подсказку). ChatGPT пересмотрит и расширит ваше описание двумя разными подсказками и отобразит изображения, созданные с помощью DALL-E 3. Затем в интерактивном режиме вы сообщаете ChatGPT, какой из них вы хотите продолжи
Оглавление

DALL-E 3

В конце сентября 2023 года компания OpenAI представила третье поколение нейросети Dall-E — конкурента Midjourney и Stable Diffusion, а публичный доступ к ней открылся в начале октября.

DALL-E 3 — модель искусственного интеллекта для преобразования текста в изображение, которую можно использовать с ChatGPT. Она поддерживает русский язык и понимает естественную речь.

В этой статье мы сравним DALL-E 3 со Stable Diffusion XL, чтобы увидеть превосходства каждой модели.

Основное улучшение в DALL-E 3 — генерация изображений, точно соответствующих текстовому запросу.

Для использования DALL-E 3 потребуется подписаться на ChatGPT Plus.

Выполните следующие действия, чтобы использовать DALL- E 3:

  1. Откройте ЧатGPT.

2. Нажмите кнопку GPT-4 вверху и выберите DALL-E 3.

3. Введите описание изображения (подсказку). ChatGPT пересмотрит и расширит ваше описание двумя разными подсказками и отобразит изображения, созданные с помощью DALL-E 3.

-2

Затем в интерактивном режиме вы сообщаете ChatGPT, какой из них вы хотите продолжить изменять. У вас нет возможности изменить приглашение напрямую. ChatGPT выступает посредником между вами и DALL-E 3. В дополнение к подсказке вы также можете попросить ChatGPT изменить соотношение сторон изображения.

Stable Diffusion

Подобно DALL-E 3, Stable Diffusion представляет собой генеративную модель искусственного интеллекта для преобразования текста в изображение. Это модель скрытой диффузии, в которой синтез изображения происходит в меньшем скрытом пространстве. Его преимуществом является то, что он меньше по размеру и его можно запускать на персональном компьютере.

Есть много вариантов использования Stable Diffusion. В качестве бесплатного локального варианта вы можете использовать  веб-интерфейс AUTOMATIC1111  Stable Diffusion. Вы можете использовать это программное обеспечение на  Windows ,  Mac или  Google Colab.

DALL-E 3 против Stable Diffusion XL 1.0

Как уже было сказано, основным улучшением DALL-E 3 является способность следовать подсказкам.

Тест 1: Двойная спираль

Вид с воздуха на обширный лесной ландшафт, образующий двойную спираль ДНК, а реки и поляны символизируют его особенности.
-3

Stable Diffusion XL не имеет структуры двойной спирали. Модель двойной спирали начинает проявляться, когда вес ключевого слова «модель двойной спирали ДНК» увеличивается до 1.2, но смешивание оказывается неудовлетворительным:

-4

Тест 2: Ядерная война

Фотография мальчика и девочки, держащихся за руки и наблюдающих последствия взрыва атомной бомбы с возвышенной точки обзора.
-5

Оба изображения соответствуют подсказке, но DALL-E 3 более точно, потому что пара стоит на возвышении, как и указано в подсказке.

Рендеринг текста

Хотя Stable Diffusion XL представляет собой квантовый скачок в рендеринге текста, но на практике SDXL работает похуже, чем DALL-E 3.

Тест 1: Рекламный щит

Иллюстрация яркого рекламного щита, подчеркивающего сияющими световыми лучами сообщение «Stable Diffusion XL лучше, чем DALLE 3».
-6

Тест 2: Знак похода

Женщина-путешественница триумфально достигает вершины с деревянной табличкой с надписью «Накачайся».
-7

Stable Diffusion XL лучше справляется с короткими фразами.

Стили

Стабильная диффузия имеет преимущество при рендеринге различных стилей. SDXL генерирует реалистичные фотографии лучше, чем DALL-E 3. Вы можете использовать разработанные сообществом модели, точно настроенные для реалистичных изображений.

-8

Вот еще одно сравнение стиля импрессионистской живописи:

-9

Редактирование изображений

Inpainting восстанавливает небольшую часть изображения, сохраняя при этом все остальное. Outpainting расширяет изображение, сохраняя при этом исходное изображение.

На момент написания статьи DALL-E 3 не поддерживает ни то, ни другое. Например, если попросить DALL-E 3 перекрасить изображение, оно полностью изменится. Stable Diffusion может делать и то, и другое, и является здесь явным победителем.

Подсказка (промт)

Вы не можете напрямую управлять подсказкой для DALL-E 3. Вы сообщаете ChatGPT, что вы хотите нарисовать, и он редактирует подсказку за вас. Это хорошо для новичков, но плохо для опытных пользователей, поскольку лишает их возможности точно настраивать подсказку.

ControlNet

Благодаря расширению ControlNet можно выбрать позу, композицию и цвета. Все это не доступно в DALL-E 3.

Заключение

Подводя итог, можно сказать, что DALL-E 3 генерирует изображения, которые следуют подсказкам намного лучше, чем Stable Diffusion. Это также относится и к рендерингу текста. Он интегрируется с ChatGPT, чтобы улучшить подсказку перед рендерингом. Это означает высокий шанс получить нужное для использования изображение с первой попытки.

Недостатком DALL-E 3 на данный момент является невозможность дальнейшего редактирования изображения. Также в DALL-E 3 более ограничены стили, чем у Stable Diffusion.

DALL-E 3 отличается простотой использования. По сравнению со Stable Diffusion и MidJourney DALL-E 3 генерирует нужные изображение в кратчайшие сроки. С другой стороны, Stable Diffusion предназначен для художественного творчества и развлечения с возможностью совершенствовать каждый аспект изображения до тех пор, пока он не станет идеальным.

Посредник ChatGPT усложняет точную настройку изображения опытным пользователям, поскольку они не могут изменить подсазку напрямую. ChatGPT включает дополнительный фильтр безопасности, позволяющий исключить из подсказки любой нежелательный контент. В результате пользователи не могут использовать модель ИИ с полной свободой.

Возможно, самый большой разрыв кроется в бизнес-модели: DALL-E 3 — это закрытый сервис. Stable Diffusion — это загружаемая модель с открытым исходным кодом.

Конечно, Stable Diffusion и DALL-E 3 не исключают друг друга. Мы можем использовать их сильные стороны. Например, сначала можно создать изображение в DALL-E 3, а затем использовать Stable Diffusion для перерисовки.

Друзья, по традиции - демонстрация нейроиллюстраций:

Эти нейроарты созданы мною в бесплатной нейросети Playgroundai.

☎ Друзья, откройте новые грани вашего стиля с уникальным нейропортретом: закажите для себя или близких портрет в любимом образе и подарите незабываемые эмоции, воплотив свои мечты в Реальность!

<<<Заказать персональный портрет>>>

_________________________________________________

P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки:

<<<Участвовать Бесплатно>>>