Найти в Дзене

Нейросеть Midjourney: как эффективно создавать хорошие картинки.

Число российских пользователей Midjourney за последний месяц сократилось на 15%. Повлияла ли на эту статистику нейросеть Кандинский или же пользователи Midjourney просто сталкиваются с трудностями в попытках сгенерировать качественную иллюстрацию?

Картинка сгенерирована в Midjourney.
Картинка сгенерирована в Midjourney.

В этой статье мы расскажем вам, как получать лучшие изображения, ведь у нас накопился достаточный опыт использования Мидджорни: признаемся, что при подготовке иллюстраций для блога нашей компании мы часто прибегаем к этой нейросетке — с её помощью можно создать красивую картинку, сэкономить кучу времени и, наконец, реализовать свои идеи, особенно если в реальной жизни вы не художники или дизайнеры.

Кстати, если вас интересует не только генеративный ИИ и вы в принципе хотите получить конкурентное преимущество с помощью нейросетей, то рекомендуем к просмотру вебинар от наших экспертов. А пока перейдем к статье, поскольку искусственный интеллект рисует картинки действительно неплохо и даже помогает выигрывать призы на конкурсах изобразительного искусства.

Промпт: что это такое и какого типа вводные принимает.

Промпт — это короткий текстовый запрос, на основе которого бот Midjourney генерирует картинки. Промпт может состоять из одного слова или даже простого эмодзи (cм. картинку ниже). Ещё в промпт можно вставлять ссылку на изображение и указывать её вес, то есть определять степень ориентации бота на известное изображение, когда тот начнет генерировать картинку.

Картинка, которую сгенерировала Midjourney только на основе эмодзи «😎».
Картинка, которую сгенерировала Midjourney только на основе эмодзи «😎».

В самом определении «промпта» создатели сервиса прямо указывают, что это — короткая фраза и что именно вот такого типа запросы бот понимает лучше всего. Но здесь нужно учесть, что при коротком промпте вы оставляете большое пространство для «фантазии» Midjourney: мало деталей в запросе — больше разнообразия и меньше контроля на выдаче.

Запросы нужно писать на английском языке. Конечно, можно писать их и на русском, но тогда возможны проблемы, поскольку нейросеть создана на английском и лучше всего понимает именно этот язык. Если вы не знаток английского языка, то всегда можно воспользоваться переводчиком, потому что интуитивно введённые промпты могут привести к нерелевантной выдаче. Ниже мы показываем разницу в случаях, когда вы вводите rose tiger и pink tiger в попытке получить розового тигра. В первом случае мы получили тигра в розах, а во втором — то, что планировали.

Попытка сгенерировать розового тигра по промпту rose tiger.
Попытка сгенерировать розового тигра по промпту rose tiger.
Генерация розового тигра по промпту pink tiger.
Генерация розового тигра по промпту pink tiger.

В Midjourney любой запрос начинается с косой черты (слэша). Стандартная схема промпта выглядит таким образом: A + B + C. В этой формуле:

A – описывает то, что должно быть на вашей картинке;

B – описывает стиль изображения;

C – дополнительные параметры: размеры, исключения, степень странностей, хаоса и др. Параметры добавляют после двух дефисов.

Describe и Shorten: команды для оптимизации промпт-инжиниринга.

Midjourney может вам помочь. Если вы хотите получить что-то, похожее на известную вам картинку, то используйте команду /describe (от англ. describe – описывать). После того как вы ее выбрали, прикрепите ссылку на ту самую картинку или загрузите ее — и получите в качестве подсказки 4 варианта промпта для создания похожего изображения. Например, мы загрузили картинку с ежиком (см. ниже), чтобы посмотреть, как бот опишет её.

Картинка, которую мы загрузили в Midjourney через команду /describe для получения ее описания.
Картинка, которую мы загрузили в Midjourney через команду /describe для получения ее описания.

Ниже показываем промпты, которые нейросеть предложила нам для того, чтобы сгенерировать похожее изображение.

Варианты промптов от самой Midjourney по команде /describe, чтобы получить картинку с ежиком.
Варианты промптов от самой Midjourney по команде /describe, чтобы получить картинку с ежиком.

Кстати, мы решили не говорить вам кое-что в начале этого параграфа и оставить интересное на «закуску». А всё дело в том, что сам ежик был сгенерирован в Midjourney, и сделали мы это по следующему промпту: watercolor style hedgehog (изображение ежика в стиле акварели). Следовательно, теперь у нас появилась замечательная возможность проверить, насколько Midjourney «отвечает» за свои слова в конкретном случае.

Внимательно смотрим на предложенные промпты и сразу замечаем, что они в отличие от нашего очень объемные. Ладно, это не такая серьезная проблема, если вообще является проблемой. Главное — найти слова hedgehog (от англ. hedgehog – ежик) и watercolor (от англ. watercolor – акварель). Удивительно или нет, но бот сумел определить не только главного героя, но также сам стиль: во всех четырёх промптах бот выдал watercolor (см. картинку ниже).

Красным отмечены ключевые слова в промптах от Midjourney, которые совпали с нашим промптом watercolor style hedgehog.
Красным отмечены ключевые слова в промптах от Midjourney, которые совпали с нашим промптом watercolor style hedgehog.

Заодно предлагаем проверить, насколько похожим на нашего ежика будет генерация картинки по предложенному промпту, допустим, под номером 1: Cute little hedgehog with an orange and red color palette in a digital painting style with watercolor effects on a white background. Highly detailed with HDR and self shadowing, featuring a unique character design in the concept art style of Atey Ghailan. Pixar animation style. Картинки получились очень похожие (см. картинку ниже).

Генерация ежика по предложенному промпту от Midjourney под номером 1 для проверки сходства.
Генерация ежика по предложенному промпту от Midjourney под номером 1 для проверки сходства.

Теперь перейдем ко второй команде — /shorten (от англ. shorten – сокращать), — которая применяется для оптимизации промпта. Она помогает сократить запрос, оставив только самое важное. Для проверки качества команды /shorten давайте поэкспериментируем на том же ежике: возьмём самый первый промпт, который выдал бот по команде describe, и получим варианты укороченного промпта от самой Midjourney (см. картинку ниже).

Пять вариантов сокращенного промпта, полученные по команде /shorten.
Пять вариантов сокращенного промпта, полученные по команде /shorten.

Нейросетка, конечно, ошибается с наличием апельсина у ежика в 5-м промпте, но реально оставляет самое основное. Давайте сравним наш промпт и самый короткий предложенный промпт под тем же номером 5: watercolor style hedgehog VS hedgehog with an orange, watercolor. Заметно, что Midjourney видит главные вещи, хотя где-то и ошибается.

Интересные лайфхаки.

1. Добавление небольшого текста.

В 6-й версии Midjourney разработчики предоставили возможность добавления небольшого текста на картинку, чего невозможно было представить в 5-й версии. Вернее, пользователи старались, но получался бессмысленный набор букв и каракулей. Например, вводим такой промпт: A student sitting at a computer. Text "Data Science" on the computer screen. Результат смотрите ниже.

Генерация картинки с отображением текста латинскими буквами.
Генерация картинки с отображением текста латинскими буквами.

Чтобы добавить текст, нужно взять его в кавычки. При этом можно использовать не только слово text, но также и sign. К сожалению, нейросеть не совсем хорошо работает на русском языке, поэтому пока что невозможно создавать аналогичные картинки с надписями на кириллице. Снизу прикрепляем картинку по точно такому же промпту, но вместо Data Science вставили «Наука о данных». Как видим, ничего не появилось.

Попытка генерации картинки с отображением текста на кириллице.
Попытка генерации картинки с отображением текста на кириллице.

2. Редактирование конкретной области.

После выдачи сгенерированного изображения у вас появится, помимо прочих, опция Vary (Region) — это корректировка конкретной области на сгенерированном изображении. Например, мы ввели такой промпт: Ukiyo-e style husky, чтобы получить собаку породы хаски в стиле одного из направлений японской живописи, укиё-э.

Отображающиеся опции под сгенерированным изображением.
Отображающиеся опции под сгенерированным изображением.

Потом выбираем нужную область двумя доступными инструментами в нижнем левом углу и вводим нужный текст в строчку: cool purple glasses (с англ. cool purple glasses — крутые фиолетовые очки).

Использование функции Vary (Region).
Использование функции Vary (Region).
Cлева — до использования опции Vary (Region), справа — после.
Cлева — до использования опции Vary (Region), справа — после.

3. Прикрепление ссылки на изображение с указанием её веса.

Midjourney можно указывать, на какой объект и в какой степени ей ориентироваться. Делается это через такую схему: прикрепляем ссылку на нужное изображение, добавляем небольшой текст и указываем через параметр --iw её вес, который в шестой версии варьируется от 0 до 3. По умолчанию вес картинки равен 1. На примере ниже мы получили Илона Маска в костюме стиля хохломы, сделав следующее: прикрепили ссылку на картинку слева, добавили текст Elon Musk wearing khokhloma costume и указали вес ссылки --iw 1.25

Промпт: [ссылка на картинку слева] Elon Musk wearing khokhloma costume --iw 1.25
Промпт: [ссылка на картинку слева] Elon Musk wearing khokhloma costume --iw 1.25

4. Блэндинг изображений.

Команда /blend позволяет смешивать от 2 до 5 изображений. Для демонстрации возможностей команды мы решили смешать картинки с уже известными нам ежиком и хаски. Результаты использования блэндинга можете смотреть ниже.

Изображения, которые мы смешали ниже с помощью команды /blend.
Изображения, которые мы смешали ниже с помощью команды /blend.
Результат смешивания изображений ежика и хаски через команду /blend.
Результат смешивания изображений ежика и хаски через команду /blend.

5. Стилизация

Если вы введете команду /settings, то сможете увидеть в выпавшем меню настроек четыре опции по стилизации:

  • Stylize low (незначительная стилизация);
  • Stylize med (средняя стилизация);
  • Stylize high (сильная стилизация);
  • Stylize very high (очень сильная стилизация).

Помимо указанных стилей, впереди будет стоять Raw Mode (сырой стиль). Объяснение следующее: если суть четырёх опций в перечне выше состоит в приукрашивании картины, то Raw Mode обеспечивает ей буквальную передачу изображения, без наворотов. Разницу можно почувствовать на двух нижних сетках изображений.

Генерация картинки с использованием Raw Mode.
Генерация картинки с использованием Raw Mode.
Генерация картинки с использованием Stylize very high.
Генерация картинки с использованием Stylize very high.

6. Параметр no.

В конце промптов можно добавлять различные параметры, одним из которых является no. С его помощью можно убирать те объекты, которые вам не нужны на картинке. Например, мы генерировали горный пейзаж по промпту mountain landscape (см. картинку ниже).

Генерация горного пейзажа по промпту: mountain landscape
Генерация горного пейзажа по промпту: mountain landscape

Затем мы подумали: что именно можно было бы убрать с помощью параметра no? Решили, что это будут облака, поэтому ввели такой промпт: mountain landscape --no cloud. Отличия заметны (см. картинку ниже), поскольку облаков на двух картинках стало совсем мало, а на ещё двух они и вовсе пропали.

Генерация горного пейзажа по промпту: mountain landscape --no clouds
Генерация горного пейзажа по промпту: mountain landscape --no clouds

7. Использование двойного двоеточия (::).

Влияние двоеточия на разные части текстового запроса можно показать на примере запроса молочного шоколада: вводите промпт milk chocolate (от англ. milk chocolate – молочный шоколад) — получаете шоколад, а если ставите двоеточие между ними, то получаете отдельно напиток и шоколад, поскольку двоеточие указывает нейросети рассматривать каждое слово индивидуально.

Промпт: milk chocolate
Промпт: milk chocolate
Промпт: milk:: chocolate
Промпт: milk:: chocolate

На этом пока всё, но поскольку нейросеть постоянно развивается, то рекомендуем держать руку на пульсе и следить за периодическими обновлениями Midjourney. К тому же есть еще несколько интересных штучек, о которых мы расскажем вам в следующей статье — подписывайтесь на наш канал в Дзен!

Также рекомендуем подписаться на наш Telegram-канал, где мы публикуем самые интересные новости из сферы искусственного интеллекта.