202 подписчика

Нейросеть Midjourney: как эффективно создавать хорошие картинки.

26 марта 202426 мар 2024

255

7 мин

Число российских пользователей Midjourney за последний месяц сократилось на 15%. Повлияла ли на эту статистику нейросеть Кандинский или же пользователи Midjourney просто сталкиваются с трудностями в попытках сгенерировать качественную иллюстрацию?

В этой статье мы расскажем вам, как получать лучшие изображения, ведь у нас накопился достаточный опыт использования Мидджорни: признаемся, что при подготовке иллюстраций для блога нашей компании мы часто прибегаем к этой нейросетке — с её помощью можно создать красивую картинку, сэкономить кучу времени и, наконец, реализовать свои идеи, особенно если в реальной жизни вы не художники или дизайнеры.

Кстати, если вас интересует не только генеративный ИИ и вы в принципе хотите получить конкурентное преимущество с помощью нейросетей, то рекомендуем к просмотру вебинар от наших экспертов. А пока перейдем к статье, поскольку искусственный интеллект рисует картинки действительно неплохо и даже помогает выигрывать призы на конкурсах изобразительного искусства.

Промпт: что это такое и какого типа вводные принимает.

Промпт — это короткий текстовый запрос, на основе которого бот Midjourney генерирует картинки. Промпт может состоять из одного слова или даже простого эмодзи (cм. картинку ниже). Ещё в промпт можно вставлять ссылку на изображение и указывать её вес, то есть определять степень ориентации бота на известное изображение, когда тот начнет генерировать картинку.

В самом определении «промпта» создатели сервиса прямо указывают, что это — короткая фраза и что именно вот такого типа запросы бот понимает лучше всего. Но здесь нужно учесть, что при коротком промпте вы оставляете большое пространство для «фантазии» Midjourney: мало деталей в запросе — больше разнообразия и меньше контроля на выдаче.

Запросы нужно писать на английском языке. Конечно, можно писать их и на русском, но тогда возможны проблемы, поскольку нейросеть создана на английском и лучше всего понимает именно этот язык. Если вы не знаток английского языка, то всегда можно воспользоваться переводчиком, потому что интуитивно введённые промпты могут привести к нерелевантной выдаче. Ниже мы показываем разницу в случаях, когда вы вводите rose tiger и pink tiger в попытке получить розового тигра. В первом случае мы получили тигра в розах, а во втором — то, что планировали.

Попытка сгенерировать розового тигра по промпту rose tiger.

Генерация розового тигра по промпту pink tiger.

В Midjourney любой запрос начинается с косой черты (слэша). Стандартная схема промпта выглядит таким образом: A + B + C. В этой формуле:

A – описывает то, что должно быть на вашей картинке;

B – описывает стиль изображения;

C – дополнительные параметры: размеры, исключения, степень странностей, хаоса и др. Параметры добавляют после двух дефисов.

Describe и Shorten: команды для оптимизации промпт-инжиниринга.

Midjourney может вам помочь. Если вы хотите получить что-то, похожее на известную вам картинку, то используйте команду /describe (от англ. describe – описывать). После того как вы ее выбрали, прикрепите ссылку на ту самую картинку или загрузите ее — и получите в качестве подсказки 4 варианта промпта для создания похожего изображения. Например, мы загрузили картинку с ежиком (см. ниже), чтобы посмотреть, как бот опишет её.

Картинка, которую мы загрузили в Midjourney через команду /describe для получения ее описания.

Ниже показываем промпты, которые нейросеть предложила нам для того, чтобы сгенерировать похожее изображение.

Варианты промптов от самой Midjourney по команде /describe, чтобы получить картинку с ежиком.

Кстати, мы решили не говорить вам кое-что в начале этого параграфа и оставить интересное на «закуску». А всё дело в том, что сам ежик был сгенерирован в Midjourney, и сделали мы это по следующему промпту: watercolor style hedgehog (изображение ежика в стиле акварели). Следовательно, теперь у нас появилась замечательная возможность проверить, насколько Midjourney «отвечает» за свои слова в конкретном случае.

Внимательно смотрим на предложенные промпты и сразу замечаем, что они в отличие от нашего очень объемные. Ладно, это не такая серьезная проблема, если вообще является проблемой. Главное — найти слова hedgehog (от англ. hedgehog – ежик) и watercolor (от англ. watercolor – акварель). Удивительно или нет, но бот сумел определить не только главного героя, но также сам стиль: во всех четырёх промптах бот выдал watercolor (см. картинку ниже).

Красным отмечены ключевые слова в промптах от Midjourney, которые совпали с нашим промптом watercolor style hedgehog.

Заодно предлагаем проверить, насколько похожим на нашего ежика будет генерация картинки по предложенному промпту, допустим, под номером 1: Cute little hedgehog with an orange and red color palette in a digital painting style with watercolor effects on a white background. Highly detailed with HDR and self shadowing, featuring a unique character design in the concept art style of Atey Ghailan. Pixar animation style. Картинки получились очень похожие (см. картинку ниже).

Генерация ежика по предложенному промпту от Midjourney под номером 1 для проверки сходства.

Теперь перейдем ко второй команде — /shorten (от англ. shorten – сокращать), — которая применяется для оптимизации промпта. Она помогает сократить запрос, оставив только самое важное. Для проверки качества команды /shorten давайте поэкспериментируем на том же ежике: возьмём самый первый промпт, который выдал бот по команде describe, и получим варианты укороченного промпта от самой Midjourney (см. картинку ниже).

Пять вариантов сокращенного промпта, полученные по команде /shorten.

Нейросетка, конечно, ошибается с наличием апельсина у ежика в 5-м промпте, но реально оставляет самое основное. Давайте сравним наш промпт и самый короткий предложенный промпт под тем же номером 5: watercolor style hedgehog VS hedgehog with an orange, watercolor. Заметно, что Midjourney видит главные вещи, хотя где-то и ошибается.

Интересные лайфхаки.

1. Добавление небольшого текста.

В 6-й версии Midjourney разработчики предоставили возможность добавления небольшого текста на картинку, чего невозможно было представить в 5-й версии. Вернее, пользователи старались, но получался бессмысленный набор букв и каракулей. Например, вводим такой промпт: A student sitting at a computer. Text "Data Science" on the computer screen. Результат смотрите ниже.

Генерация картинки с отображением текста латинскими буквами.

Чтобы добавить текст, нужно взять его в кавычки. При этом можно использовать не только слово text, но также и sign. К сожалению, нейросеть не совсем хорошо работает на русском языке, поэтому пока что невозможно создавать аналогичные картинки с надписями на кириллице. Снизу прикрепляем картинку по точно такому же промпту, но вместо Data Science вставили «Наука о данных». Как видим, ничего не появилось.

Попытка генерации картинки с отображением текста на кириллице.

2. Редактирование конкретной области.

После выдачи сгенерированного изображения у вас появится, помимо прочих, опция Vary (Region) — это корректировка конкретной области на сгенерированном изображении. Например, мы ввели такой промпт: Ukiyo-e style husky, чтобы получить собаку породы хаски в стиле одного из направлений японской живописи, укиё-э.

Отображающиеся опции под сгенерированным изображением.

Потом выбираем нужную область двумя доступными инструментами в нижнем левом углу и вводим нужный текст в строчку: cool purple glasses (с англ. cool purple glasses — крутые фиолетовые очки).

Cлева — до использования опции Vary (Region), справа — после.

3. Прикрепление ссылки на изображение с указанием её веса.

Midjourney можно указывать, на какой объект и в какой степени ей ориентироваться. Делается это через такую схему: прикрепляем ссылку на нужное изображение, добавляем небольшой текст и указываем через параметр --iw её вес, который в шестой версии варьируется от 0 до 3. По умолчанию вес картинки равен 1. На примере ниже мы получили Илона Маска в костюме стиля хохломы, сделав следующее: прикрепили ссылку на картинку слева, добавили текст Elon Musk wearing khokhloma costume и указали вес ссылки --iw 1.25

Промпт: [ссылка на картинку слева] Elon Musk wearing khokhloma costume --iw 1.25

4. Блэндинг изображений.

Команда /blend позволяет смешивать от 2 до 5 изображений. Для демонстрации возможностей команды мы решили смешать картинки с уже известными нам ежиком и хаски. Результаты использования блэндинга можете смотреть ниже.

Изображения, которые мы смешали ниже с помощью команды /blend.

Результат смешивания изображений ежика и хаски через команду /blend.

5. Стилизация

Если вы введете команду /settings, то сможете увидеть в выпавшем меню настроек четыре опции по стилизации:

Stylize low (незначительная стилизация);
Stylize med (средняя стилизация);
Stylize high (сильная стилизация);
Stylize very high (очень сильная стилизация).

Помимо указанных стилей, впереди будет стоять Raw Mode (сырой стиль). Объяснение следующее: если суть четырёх опций в перечне выше состоит в приукрашивании картины, то Raw Mode обеспечивает ей буквальную передачу изображения, без наворотов. Разницу можно почувствовать на двух нижних сетках изображений.

Генерация картинки с использованием Raw Mode.

Генерация картинки с использованием Stylize very high.

6. Параметр no.

В конце промптов можно добавлять различные параметры, одним из которых является no. С его помощью можно убирать те объекты, которые вам не нужны на картинке. Например, мы генерировали горный пейзаж по промпту mountain landscape (см. картинку ниже).

Генерация горного пейзажа по промпту: mountain landscape

Затем мы подумали: что именно можно было бы убрать с помощью параметра no? Решили, что это будут облака, поэтому ввели такой промпт: mountain landscape --no cloud. Отличия заметны (см. картинку ниже), поскольку облаков на двух картинках стало совсем мало, а на ещё двух они и вовсе пропали.

Генерация горного пейзажа по промпту: mountain landscape --no clouds

7. Использование двойного двоеточия (::).

Влияние двоеточия на разные части текстового запроса можно показать на примере запроса молочного шоколада: вводите промпт milk chocolate (от англ. milk chocolate – молочный шоколад) — получаете шоколад, а если ставите двоеточие между ними, то получаете отдельно напиток и шоколад, поскольку двоеточие указывает нейросети рассматривать каждое слово индивидуально.

На этом пока всё, но поскольку нейросеть постоянно развивается, то рекомендуем держать руку на пульсе и следить за периодическими обновлениями Midjourney. К тому же есть еще несколько интересных штучек, о которых мы расскажем вам в следующей статье — подписывайтесь на наш канал в Дзен!

Также рекомендуем подписаться на наш Telegram-канал, где мы публикуем самые интересные новости из сферы искусственного интеллекта.