С момента нашего последнего обзора нейросети Midjourney прошло несколько месяцев, и создатели нейросети выпустили уже несколько свежих версий. Возможности последней значительно расширились. Например, появился инструмент Zoom Out, который похож на свежий Generative Fill в Photoshop. О нём и других интересных функциях читайте в этом материале.
Общий интерфейс и логика работы с нейросетью не изменилась. Если вы впервые с ней столкнулись, с основами можно познакомиться здесь.
Настройки Midjourney
Даже с настройками по умолчанию Midjourney генерирует красивые и качественные изображения. Но если хочется большего контроля над происходящим, можно отправить команду /settings и поменять параметры нейросети. Выбранные настройки будут применяться по умолчанию ко всем создаваемым нейросетью изображениям.
Во-первых, в настройках можно выбрать версию нейросети, используемую для генерации. По умолчанию выбрана последняя актуальная версия (на сегодняшний день это 5.2), и в большинстве случаев стоит использовать именно её. Если же захочется создать несколько картинок в более ранней версии, можно выбрать другую версию для текущего запроса, добавив в конце описания ключ --v и номер версии (например, чтобы сгенерировать изображение в Midjourney 4, нужно добавить --v 4).
RAW Mode — в свежих моделях Midjourney, версии 5.1 и 5.2, создатели научили нейросеть рисовать красивые картинки даже по минималистичному запросу из 2-3 слов и при их создании придерживаться так называемой «эстетики Midjourney». На что именно она влияет в каждом конкретном случае, сказать сложно. А для отключения этой функции как раз и предназначена кнопка «RAW mode» (режим без обработки).
Вот так выглядят картинки по запросу «Landscape with waterfall» c выключенной настройкой RAW mode (слева) и включенной (справа). В первом случае картинки похожи на цифровую живопись (или качественную работу нейросети), а во втором — на акварельный пейзаж:
В другом случае включение этой настройки практически не повлияло на результат. Картинки по запросу «Portrait of the old man» (портрет пожилого мужчины) получились очень похожими:
В большинстве случаев рекомендуют не включать эту настройку, если вы только начинаете знакомиться с Midjourney (и включать, если вы опытный пользователь нейросети и любите создавать длинные детализированные запросы).
Niji version — включает версию нейросети Midjourney Niji для создания картинок в аниме-стиле. Стоит включать в разделе настроек только в том случае, если нужно создавать аниме и ничего кроме аниме. Если же нужно включить эту модель только для одной генерации, проще использовать в запросе ключ --niji 5.
Stylize — степень стилизации, доступны 4 значения от низкой (Low) до очень высокой (Very High). Настройка чем-то похожа на RAW Mode и отвечает за «творческие способности» нейросети. При высоких значениях стилизации Midjourney старается создавать красивые, композиционно верные картинки с хорошим цветом и светом (но при этом может не очень точно следовать запросу). В большинстве случаев подойдёт настройка Stylize Med (средний уровень) или Stylize High (умеренно-высокий).
Public Mode — переключает между публичным (Public) и скрытым (Stealth) режимами. В скрытом режиме созданные изображения не видны в галерее на сайте Midjourney. Но из чата Discord эта настройка изображения не скрывает — так что, если работать в общем чате, картинки будут видны всем пользователям независимо от выбранного режима.
Fast mode — настройка для экономных, переключает между быстрым (Fast) и расслабленным (Relax) режимом генерации. При покупке подписки Midjourney пользователь получает некоторое количество GPU-минут, которые тратятся на генерацию изображений. Например, в самую дешёвую подписку за 10 долларов входит 200 минут, и это примерно 200 генераций. Если же переключиться в расслабленный режим, минуты не будут тратиться, но и генерация станет дольше, так как приоритет запроса сильно снизится. В среднем, генерация в режиме Fast занимает 1-3 минуты, а в Relax придётся подождать минут 10.
Remix mode — позволяет изменить запрос при создании вариантов сгенерированной картинки, и получить на её основе похожее изображение с другими объектами.
High Variation mode и Low Variation mode. Midjourney генерирует сразу 4 картинки, и этот параметр влияет на то, насколько похожими друг на друга они будут. Лучше оставить высокую вариативность (High Variation).
Качество генераций в пятой версии Midjourney
С каждой новой версией Midjourney всё лучше справляется с рисованием и лучше понимает, что от неё хотят. Например, у нейросетей часто бывают проблемы с человеческими руками. Два больших пальца на руке, руки с 7-8 пальцами — типичная ошибка, по которой легко опознать работу нейросетей. В версии 5.2 Midjourney создаёт ошибается гораздо реже, и чаще всего рисует анатомически верные руки. Вот так выглядит результат запроса «Man holding a cup of coffee in his hands, closeup hands» в разных версиях:
С портретами людей и четвёртая, и пятая версии справляются одинаково неплохо. У пятой кожа выглядит более детализированной, но при этом слегка перешарпленой, словно кто-то перестарался с повышением резкости в фоторедакторе.
Если взяться за «семейную съёмку» и попросить Midjorney создать фотографию детей, играющих в саду на закате, то разница тоже будет заметна. На первый взгляд, обе картинки красивые, но если присмотреться, на левой заметна проблема с лицом правой девочки, качели просто висят в воздухе. Правая картинка, созданная в последней версии нейросети, выглядит фотореалистично, и её можно хоть сейчас отправлять на фотоконкурс:
В рисовании фотореалистичных автомобилей однозначно побеждает свежая версия. Результат похож на настоящее фото, сделанное на светосильный объектив. При этом в запрос не пришлось вставлять ключевые слова с указанием модели камеры, объектива, суперфотореализма и т.п. — просто «sportcar on the street of Moscow, night photo, neon lights» (спортивная машина на московской улице, ночное фото, неоновые огни).
А теперь еда. При тестировании Midjourney весной этого года (кажется, это была версия 3) никак не удавалось получить приличную картинку пиццы со стаканом апельсинового сока. Нейросеть упорно клала апельсины прямо в пиццу, невзирая на все попытки усложнить запрос и объяснить ей, что их там быть не должно. Актуальная версия нейросети работает гораздо лучше: простой запрос «photo of the pizza with glass of orange juice», и из четырёх картинок получилось целых две пиццы без апельсинов.
Новые инструменты в Midjourney 5.2
Отдаление (Zoom Out)
Инструмент похож генеративную заливку в Adobe Photoshop и позволяет «отдалить» созданную картинку, дорисовав ей края. Для этого нужно выбрать степень отдаления (в полтора или в два раза) и нажать соответствующую кнопку:
Повторять «отзумливание» можно сколько угодно раз. Но так как запрос при этом не меняется, есть шанс, что изображения начнут повторяться — на примере ниже нейросеть нарисовала нового мужчину, как только исходный отодвинулся очень далеко:
Чтобы этого избежать, можно использовать кнопку Custom Zoom. Она позволяет не только задать степень отдаления (в пределах от 1х до 2х), но и отредактировать при этом запрос. Например, исходная картинка была сгенерирована с запросом «vibrant California poppies (яркие калифорнийские маки). После нажатия кнопки Custom Zoom открылось окно, в котором запрос поменяли на «A framed poster on the wall» (плакат в рамке на стене), и вот что вышло:
С помощью этой функции отдаляться и приближаться можно очень сильно. Как, например, в этом видео.
Make Square
Этот инструмент тоже дорисовывает края изображению, но делает это чуть иначе. Она ничего не отдаляет, а делает из прямоугольного изображения квадратное (если изображение и так квадратное, этой кнопки не будет). Жмём кнопку, и вертикальная картинка становится квадратной:
Vary (Strong) и Vary (Subtle)
Новые инструменты создания вариантов сгенерированного изображения. Если в прошлых версиях Midjourney просто предлагала сделать несколько вариантов понравившейся картинки, то сейчас можно выбирать, насколько сильно они будут отличаться от исходной.
Доступны два варианта: Vary (Strong) вносит более сильные изменения в создаваемые вариации (например, у человека может поменяться лицо, одежда и причёска), а с Vary (Subtle) изменения будут едва заметны.