Число российских пользователей Midjourney за последний месяц сократилось на 15%. Повлияла ли на эту статистику нейросеть Кандинский или же пользователи Midjourney просто сталкиваются с трудностями в попытках сгенерировать качественную иллюстрацию?
В этой статье мы расскажем вам, как получать лучшие изображения, ведь у нас накопился достаточный опыт использования Мидджорни: признаемся, что при подготовке иллюстраций для блога нашей компании мы часто прибегаем к этой нейросетке — с её помощью можно создать красивую картинку, сэкономить кучу времени и, наконец, реализовать свои идеи, особенно если в реальной жизни вы не художники или дизайнеры.
Кстати, если вас интересует не только генеративный ИИ и вы в принципе хотите получить конкурентное преимущество с помощью нейросетей, то рекомендуем к просмотру вебинар от наших экспертов. А пока перейдем к статье, поскольку искусственный интеллект рисует картинки действительно неплохо и даже помогает выигрывать призы на конкурсах изобразительного искусства.
Промпт: что это такое и какого типа вводные принимает.
Промпт — это короткий текстовый запрос, на основе которого бот Midjourney генерирует картинки. Промпт может состоять из одного слова или даже простого эмодзи (cм. картинку ниже). Ещё в промпт можно вставлять ссылку на изображение и указывать её вес, то есть определять степень ориентации бота на известное изображение, когда тот начнет генерировать картинку.
В самом определении «промпта» создатели сервиса прямо указывают, что это — короткая фраза и что именно вот такого типа запросы бот понимает лучше всего. Но здесь нужно учесть, что при коротком промпте вы оставляете большое пространство для «фантазии» Midjourney: мало деталей в запросе — больше разнообразия и меньше контроля на выдаче.
Запросы нужно писать на английском языке. Конечно, можно писать их и на русском, но тогда возможны проблемы, поскольку нейросеть создана на английском и лучше всего понимает именно этот язык. Если вы не знаток английского языка, то всегда можно воспользоваться переводчиком, потому что интуитивно введённые промпты могут привести к нерелевантной выдаче. Ниже мы показываем разницу в случаях, когда вы вводите rose tiger и pink tiger в попытке получить розового тигра. В первом случае мы получили тигра в розах, а во втором — то, что планировали.
В Midjourney любой запрос начинается с косой черты (слэша). Стандартная схема промпта выглядит таким образом: A + B + C. В этой формуле:
A – описывает то, что должно быть на вашей картинке;
B – описывает стиль изображения;
C – дополнительные параметры: размеры, исключения, степень странностей, хаоса и др. Параметры добавляют после двух дефисов.
Describe и Shorten: команды для оптимизации промпт-инжиниринга.
Midjourney может вам помочь. Если вы хотите получить что-то, похожее на известную вам картинку, то используйте команду /describe (от англ. describe – описывать). После того как вы ее выбрали, прикрепите ссылку на ту самую картинку или загрузите ее — и получите в качестве подсказки 4 варианта промпта для создания похожего изображения. Например, мы загрузили картинку с ежиком (см. ниже), чтобы посмотреть, как бот опишет её.
Ниже показываем промпты, которые нейросеть предложила нам для того, чтобы сгенерировать похожее изображение.
Кстати, мы решили не говорить вам кое-что в начале этого параграфа и оставить интересное на «закуску». А всё дело в том, что сам ежик был сгенерирован в Midjourney, и сделали мы это по следующему промпту: watercolor style hedgehog (изображение ежика в стиле акварели). Следовательно, теперь у нас появилась замечательная возможность проверить, насколько Midjourney «отвечает» за свои слова в конкретном случае.
Внимательно смотрим на предложенные промпты и сразу замечаем, что они в отличие от нашего очень объемные. Ладно, это не такая серьезная проблема, если вообще является проблемой. Главное — найти слова hedgehog (от англ. hedgehog – ежик) и watercolor (от англ. watercolor – акварель). Удивительно или нет, но бот сумел определить не только главного героя, но также сам стиль: во всех четырёх промптах бот выдал watercolor (см. картинку ниже).
Заодно предлагаем проверить, насколько похожим на нашего ежика будет генерация картинки по предложенному промпту, допустим, под номером 1: Cute little hedgehog with an orange and red color palette in a digital painting style with watercolor effects on a white background. Highly detailed with HDR and self shadowing, featuring a unique character design in the concept art style of Atey Ghailan. Pixar animation style. Картинки получились очень похожие (см. картинку ниже).
Теперь перейдем ко второй команде — /shorten (от англ. shorten – сокращать), — которая применяется для оптимизации промпта. Она помогает сократить запрос, оставив только самое важное. Для проверки качества команды /shorten давайте поэкспериментируем на том же ежике: возьмём самый первый промпт, который выдал бот по команде describe, и получим варианты укороченного промпта от самой Midjourney (см. картинку ниже).
Нейросетка, конечно, ошибается с наличием апельсина у ежика в 5-м промпте, но реально оставляет самое основное. Давайте сравним наш промпт и самый короткий предложенный промпт под тем же номером 5: watercolor style hedgehog VS hedgehog with an orange, watercolor. Заметно, что Midjourney видит главные вещи, хотя где-то и ошибается.
Интересные лайфхаки.
1. Добавление небольшого текста.
В 6-й версии Midjourney разработчики предоставили возможность добавления небольшого текста на картинку, чего невозможно было представить в 5-й версии. Вернее, пользователи старались, но получался бессмысленный набор букв и каракулей. Например, вводим такой промпт: A student sitting at a computer. Text "Data Science" on the computer screen. Результат смотрите ниже.
Чтобы добавить текст, нужно взять его в кавычки. При этом можно использовать не только слово text, но также и sign. К сожалению, нейросеть не совсем хорошо работает на русском языке, поэтому пока что невозможно создавать аналогичные картинки с надписями на кириллице. Снизу прикрепляем картинку по точно такому же промпту, но вместо Data Science вставили «Наука о данных». Как видим, ничего не появилось.
2. Редактирование конкретной области.
После выдачи сгенерированного изображения у вас появится, помимо прочих, опция Vary (Region) — это корректировка конкретной области на сгенерированном изображении. Например, мы ввели такой промпт: Ukiyo-e style husky, чтобы получить собаку породы хаски в стиле одного из направлений японской живописи, укиё-э.
Потом выбираем нужную область двумя доступными инструментами в нижнем левом углу и вводим нужный текст в строчку: cool purple glasses (с англ. cool purple glasses — крутые фиолетовые очки).
3. Прикрепление ссылки на изображение с указанием её веса.
Midjourney можно указывать, на какой объект и в какой степени ей ориентироваться. Делается это через такую схему: прикрепляем ссылку на нужное изображение, добавляем небольшой текст и указываем через параметр --iw её вес, который в шестой версии варьируется от 0 до 3. По умолчанию вес картинки равен 1. На примере ниже мы получили Илона Маска в костюме стиля хохломы, сделав следующее: прикрепили ссылку на картинку слева, добавили текст Elon Musk wearing khokhloma costume и указали вес ссылки --iw 1.25
4. Блэндинг изображений.
Команда /blend позволяет смешивать от 2 до 5 изображений. Для демонстрации возможностей команды мы решили смешать картинки с уже известными нам ежиком и хаски. Результаты использования блэндинга можете смотреть ниже.
5. Стилизация
Если вы введете команду /settings, то сможете увидеть в выпавшем меню настроек четыре опции по стилизации:
- Stylize low (незначительная стилизация);
- Stylize med (средняя стилизация);
- Stylize high (сильная стилизация);
- Stylize very high (очень сильная стилизация).
Помимо указанных стилей, впереди будет стоять Raw Mode (сырой стиль). Объяснение следующее: если суть четырёх опций в перечне выше состоит в приукрашивании картины, то Raw Mode обеспечивает ей буквальную передачу изображения, без наворотов. Разницу можно почувствовать на двух нижних сетках изображений.
6. Параметр no.
В конце промптов можно добавлять различные параметры, одним из которых является no. С его помощью можно убирать те объекты, которые вам не нужны на картинке. Например, мы генерировали горный пейзаж по промпту mountain landscape (см. картинку ниже).
Затем мы подумали: что именно можно было бы убрать с помощью параметра no? Решили, что это будут облака, поэтому ввели такой промпт: mountain landscape --no cloud. Отличия заметны (см. картинку ниже), поскольку облаков на двух картинках стало совсем мало, а на ещё двух они и вовсе пропали.
7. Использование двойного двоеточия (::).
Влияние двоеточия на разные части текстового запроса можно показать на примере запроса молочного шоколада: вводите промпт milk chocolate (от англ. milk chocolate – молочный шоколад) — получаете шоколад, а если ставите двоеточие между ними, то получаете отдельно напиток и шоколад, поскольку двоеточие указывает нейросети рассматривать каждое слово индивидуально.
На этом пока всё, но поскольку нейросеть постоянно развивается, то рекомендуем держать руку на пульсе и следить за периодическими обновлениями Midjourney. К тому же есть еще несколько интересных штучек, о которых мы расскажем вам в следующей статье — подписывайтесь на наш канал в Дзен!
Также рекомендуем подписаться на наш Telegram-канал, где мы публикуем самые интересные новости из сферы искусственного интеллекта.