141,9 тыс подписчиков

Midjourney, Dall-E, Stable Diffusion: какой генератор изображений ИИ лучший

13 ноября 202313 ноя 2023

5 мин

Люди повсюду сталкиваются с изображениями, созданными ИИ. Благодаря соответствующим инструментам достаточно простого ввода текста, чтобы за считанные секунды получить желаемое изображение. И не важно, фотореалистично оно должно быть или создано в каком-то уникальном стиле. Любой, кто хочет создавать изображения с использованием ИИ, теперь может выбирать из целого ряда моделей и платформ ИИ. Чтобы было легче выбрать подходящий вариант, ниже представлены 3 наиболее популярных инструмента и объяснены их преимущества и недостатки. Как работает генератор изображений С точки зрения пользователя генераторы изображений работают очень просто. Человек описывает то, что хотел бы видеть, а ИИ предоставляет подходящее изображение. Можно выбрать определенный стиль рисования или установить преобладающие цвета. Например, если попросить нейросеть создать картинку вот с таким описанием: "Астронавт верхом на стальном коне скачет по Луне. Астронавт одет в средневековые доспехи, праздничную шляпу с зеленым

Оглавление

Как работает генератор изображений
Какой генератор изображений лучший
Dall-E 3

Любой, кто хочет создавать изображения с использованием ИИ, теперь может выбирать из целого ряда моделей и платформ ИИ. Чтобы было легче выбрать подходящий вариант, ниже представлены 3 наиболее популярных инструмента и объяснены их преимущества и недостатки.

Как работает генератор изображений

С точки зрения пользователя генераторы изображений работают очень просто. Человек описывает то, что хотел бы видеть, а ИИ предоставляет подходящее изображение. Можно выбрать определенный стиль рисования или установить преобладающие цвета.

Например, если попросить нейросеть создать картинку вот с таким описанием: "Астронавт верхом на стальном коне скачет по Луне. Астронавт одет в средневековые доспехи, праздничную шляпу с зеленым мечом в руках", то получим следующие изображения:

Однако с технической точки зрения процесс гораздо сложнее. Существует несколько методов создания изображений с использованием ИИ. Однако наибольшее распространение в настоящее время получили так называемые диффузионные модели. Искусственную нейронную сеть учат удалять шум с изображений. После обучения этот процесс по сути меняется на обратный, и модель может затем создавать новое изображение из случайно сгенерированного шума.

Какой генератор изображений лучший

Можно создавать изображения в самых разных стилях с помощью Dall-E 3, Midjourney и Stable Diffusion XL. Прямое сравнение качества изображения этих инструментов сделать трудно. В некоторых случаях одна из моделей ИИ понимает те или иные подсказки лучше других.

Midjourney постоянно совершенствуется. В зависимости от поведения в использовании, Dall-E 3 также может быть хорошим выбором. Если заплатить за ChatGPT Plus, можно использовать генератор изображений без каких-либо дополнительных затрат. В качестве альтернативы Microsoft предоставляет бесплатный доступ к Dall-E 3 через Bing Image Creator, но есть определенные ограничения. Stable Diffusion XL же впечатляет большим количеством дополнительных возможностей.

Dall-E 3

Предыдущая модель, Dall-E 2, сыграла ключевую роль в популяризации генераторов изображений. Впервые пользователи смогли создавать качественные и реалистичные изображения на основе ввода текста. По качеству модель ИИ впоследствии значительно обогнала некоторых конкурентов. С выпуском Dall-E 3 в августе 2023 года продукт OpenAI снова оказался лидером на рынке.

В настоящее время существует два способа использования Dall-E 3. С помощью первого можно создавать изображения прямо из ChatGPT. Однако это возможно только при наличии платной подписки ChatGPT Plus. Она стоит $20 в месяц. В дополнение к приоритетному использованию чат-бота OpenAI можно заставить Dall-E 3 генерировать до 50 изображений в день.

Предложение выгодно только в том случае, если пользователь регулярно использует ChatGPT. С одной стороны, Midjourney и Stable Diffusion дешевле, а с другой стороны, можно бесплатно использовать Dall-E 3 через поисковую систему Microsoft Bing.

Если использовать инструмент через Bing, к сожалению, придется принять определенные ограничения. Bing Image Creator создает четыре варианта изображения для каждого запроса. За это будут списаны баллы, которых пользователь получает максимум 15 в неделю. Если все они израсходованы, можно продолжить создание изображений, но это может занять значительно больше времени.

Поэтому обход ограничений через Bing имеет смысл, если нужно сгенерировать только небольшое количество изображений с помощью ИИ.

Midjourney

Midjourney стабильно показывает лучшие результаты среди всех провайдеров. Однако у инструмента есть существенный недостаток с точки зрения использования: в отличие от конкурентов, Midjourney не имеет собственного веб-интерфейса. Скорее, доступ осуществляется через чат-сервис Discord. Там можно отправить свою идею изображения в Midjourney с помощью команды /imagine, после чего получить четыре варианта изображения.

Затем можно выбрать вариант и потом, например, «уменьшить масштаб», то есть Midjourney расширяет исходное изображение по краям. И снова получается четыре варианта на выбор. Также можно отметить определенные области изображения и в дальнейшем изменить их с помощью новой подсказки.

Использование Discord не совсем удобно. Midjourney работает над собственным веб-интерфейсом. Однако в настоящее время нельзя создавать изображения с его помощью.

Модель ценообразования Midjourney также относительно сложна. Базовая подписка стоит $10 в месяц или $96 в год. Этот вариант ограничен 3,3 часами в месяц. За $30 в месяц или $288 в год время графического процессора, необходимое для вычисления изображений, увеличивается до 15 часов.

Однако оба варианта не подходят компаниям с годовым объемом прибыли более миллиона долларов. Им не разрешается использовать изображения в соответствии с правилами. Таким компаниям нужно оформить подписку Pro или Mega стоимостью $48 в месяц.

Stable Diffusion XL

Stable Diffusion XL — это текущий вариант самого известного ИИ-генератора изображений с открытым исходным кодом. Инструмент можно использовать локально на компьютере или воспользоваться услугами одного из многочисленных коммерческих веб-провайдеров для создания изображений.

Под названием Clipdrop разработчики из Stability AI предлагают платное веб-приложение для использования ИИ. Можно не только создавать изображения, но и использовать различные инструменты искусственного интеллекта для редактирования картинок. В предложении представлены сравнительно простые инструменты, которые позволяют, например, изолировать объект или увеличить разрешение без потери качества. Но есть и несколько более сложных функций.

В Stable Diffusion помимо собственно подсказки, в которой пользователь описывает желаемое изображение, есть еще так называемая негативная подсказка. Указывается то, что не должно быть видно на картинке. Таким образом, можно более точно определить, что на самом деле хочет увидеть пользователь.

В зависимости от желаемого конечного результата функция стабильного рисования также может оказаться чрезвычайно полезной. В этом случае нужно прикрепить к подсказке небольшой эскиз. Картинка не обязательно должна быть очень хорошо нарисована. Функция дает возможность самостоятельно определить композицию изображения.

Clipdrop предлагает аккуратный интерфейс, а Stability AI следует простому принципу, когда речь идет о стоимости: все функции обходятся в $13 в месяц. Если сразу оплатить годовую подписку, сумма снижается до $9 в месяц.

📃 Читайте далее на сайте

Нейронные сети (Neural Networks)

80,9 тыс интересуются