40,9 тыс подписчиков

Что умеет Midjourney v6

28 февраля 202428 фев 2024

191

7 мин

Оглавление

Настройки и интерфейс Midjourney v6
Кнопки и параметры Midjourney v6
Новые возможности Midjourney v6 и сравнение с v5.2

В конце 2023 года Midjourney выпустила новую шестую версию своей нейросети для создания изображений. Обновлённая нейросеть рисует ещё лучше (почти никогда не ошибается с количеством пальцев), научилась писать и стала умнее — лучше понимает запросы своих пользователей. Тестируем и смотрим, что изменилось по сравнению с предыдущей версией.

Развитие нейросетей для создания изображений идёт в двух направлениях. Во-первых, это увеличение реалистичности генерируемых изображений. Это и люди с пятью пальцами на руках, растущих из плеч (а не монстры с «веником» пальцев и тремя левыми руками, как в первых нейросетевых картинках), и правильная работа с ГРИП, когда созданную нейросетью картинку не отличить от съёмки на светосильный объектив, и возможность создавать с помощью нейросети не только «идеальные» картинки, похожие на цифровые картины, но и живые изображения, похожие на репортажное фото или снятые мимоходом на смартфон кадры.

Во-вторых, нейросети учатся лучше понимать людей, поддерживают более длинные и сложные запросы с описанием персонажей, действий и стиля изображения. И даже способны «понять» и разместить на картинке читаемую надпись из нескольких слов, а не неведомые закорючки вместо букв (по крайней мере, свежая Midjourney v6 неплохо с этим справляется в большинстве случаев).

Настройки и интерфейс Midjourney v6

Для тех, кто никогда раньше не работал с нейросетью Midjourney и не читал наши предыдущие тексты о ней, вкратце напомним основы. Нейросеть работает на удалённых серверах, а доступ к ней и общение происходит в чатах Discord (можно использовать как веб-версию Discord в браузере, так отдельное приложение для компьютера или смартфона). При этом и запросы к нейросети, и созданные Midjourney картинки видны всем участникам чата.

Чтобы использовать самую свежую версию Midjourney, её нужно включить в настройках. Для этого можно либо вызвать меню настроек командной /settings и выбрать в нём Midjourney v6 (в этом случае шестая версия будет использоваться по умолчанию для всех генераций), либо использовать ключ --v 6 в конце текстового описания (если использовать ключ, модель Midjourney v6 будет использована только для текущего запроса)

Кнопки и параметры Midjourney v6

После того, как нейросеть создала картинку (точнее, целых четыре варианта картинки по заданному описанию), становятся доступны уже знакомые по предыдущим версиям нейросети кнопки U1—U4 (1), с помощью которых можно увеличить понравившуюся картинку и V1—V4 (3), создающие новые варианты выбранного изображения. Если же ничего не понравилось, можно использовать кнопку (2) и сгенерировать картинки заново.

Эти кнопки не меняются уже давно / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Если же увеличить один из вариантов, появится больше интересных кнопок и возможностей. Верхний предлагает ряд кнопок предлагает дополнительно увеличить картинку с помощью кнопок Upscale, создать вариант всего изображения кнопками Vary или изменить только часть картинки с помощью кнопки Vary Region.

С каждой новой версией нейросети кнопочек становится всё больше / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Следующий ряд — кнопки Zoom Out и Make Square, знакомые по пятой версии Midjourney. Третий ряд — кнопки со стрелками, которые увеличивают и дорисовывают изображение в указанном стрелкой направлении (это похоже на функцию Generative Expand в Adobe Photoshop.

Вот так выглядит исходное изображение по запросу «a man walks along a busy street in Moscow, a still from the film by Denis Villeneuve» (человек идёт по оживлённой улице в Москве, кадр из фильма Дени Вильнёва) и его «расширенный» вариант:

При желании можно продолжать дорисовывать изображение в любом направлении / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Теперь вернёмся к кнопкам Upscale и Vary. Как видно на картинке выше, у этих кнопок есть два варианта: кнопка с надписью Subtle (переводится как тонкий, неуловимый, едва различимый) вносит очень небольшие и почти незаметные изменения в картинку при масштабировании или создании вариантов, а вот работа кнопок Upscale (Creative) и Vary (Strong) вносит гораздо больше изменений в исходник.

Вот как это выглядит на примере Upscale (Subtle) и Upscale (Creative). Слева — исходная картинка, нейросеть создала её размером 816х1456 пикселей. Посередине — результат увеличения кнопкой Upscale (Subtle). Размер картинки вырос в два раза, детализация выросла, шерсть и металлические текстуры выглядят лучше и резче. Справа — увеличение с помощью Upscale (Creative). Композиция сохранилась, но текстура шланга, форма «наушников» и даже боке на фоне немного изменились, а наш ёж стал больше похож на собаку или енота.

Ёж в стимпанковом скафандре / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Помимо кнопок, которые используются для работы с уже созданным изображением, существуют текстовые ключи. Они вводятся в конце запроса и влияют на настройки нейросети, которые будут задействованы при генерации картинки. Вот самые важные из них:

--v — задаёт версию нейросети, используемую для генерации (от 1 до 6, включая версии 5.1 и 5.2)

--ar или --aspect — соотношение сторон изображения, ширина:высота (например, 3:2 или 16:9)

--no — даёт возможность добавить описание того, чего не должно быть на картинке (--no plants — без растений, -- no red colors — без оттенков красного и т. п.)

--r или --repeat — используется, если нужно создать не 4 варианта картинки по одному описанию, а гораздо больше. Максимум — 40 повторов,в каждом из которых Midjourney нарисует по четыре изображения.

--stop — останавливает работу нейросети и выдает нарисованную не до конца картинку, степень «готовности» задаётся числом от 10 до 100 (например, --stop 25 выдаст готовую на 25% картинку)

--tile — создаёт бесшовные паттерны и текстуры

--weird — создаёт «странные» картинки с необычной эстетикой, степень «странности» задаётся числом от 0 до 3000.

Типичный нейросетевой дедушка в кафе (слева) и дедушка, созданный по тому же запросу, но с ключом --weird 3000 (справа) / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Новые возможности Midjourney v6 и сравнение с v5.2

Midjourney v6 лучше понимает сложные запросы

В шестой версии разработчики Midjourney сильно улучшили способность нейросети понимать запросы со сложными описаниями, в которых используются цвета объектов, их взаимное расположение и т п. Раньше у неё были с эти проблемы, и она могла просто проигнорировать часть деталей, сохранив общую тему запроса.

Для примера мы попросили нейросеть нарисовать рыжего мужчину в зеленом пиджаке, потёртой бейсболке и жёлтых солнцезащитных очках, с таксой на руках, который сидит на синей скамейке под цветущей яблоней на фоне розово-пурпурного заката.

Версия 5.2 нарисовала мужчину, собаку, дерево и закат. При этом закат вышел скорее оранжевый, зелёный пиджак и жёлтые очки отсутствуют на всех четырёх картинках, синяя скамейка — 1 шт, от таксы присутствуют только далёкие предки на одной картинке (зато все собаки рыжие, как и их владельцы).

Человек, собака, закат, Midjourney v 5.2 / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Теперь тот же самый запрос адресуем шестой версии нейросети. Вышло довольно интересно. Все детали на месте, Midjourney покрасила скамейку и закат в нужный цвет, надела на мужчину бейсболку и вручила ему таксу. Но вот стиль картинок изменился — вместо фотореализма пятой версии получилось что-то похожее на цифровую живопись.

Бейсболка, такса, синяя скамейка, Midjourney v 6 / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Чтобы получить в Midjourney v6 не рисунок, а фотографию, пришлось немного доработать запрос и начать его словами «Photo of the … ». И это дало нужный результат — цвета и детали на месте, а картинки теперь похожи на фотографии:

Три с половиной таксы из четырёх — достойный результат / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Midjourney v6 умеет создавать читаемые надписи

После обновления Midjourney стала не только лучше читать, но и лучше писать. Теперь можно попросить нейросеть создать вывеску на здании, вышить её на куртке или выложить из камней. На данный момент писать Midjourney умеет только на английском языке, надпись в запросе должна быть вот в прямых кавычках, вот таких: "слово в кавычках".

Над воротами левого замка мы попросили повесить флаг с надписью «Midjourney», а над воротами правого — с надписью «Фотосклад». С русским нейросеть пока совсем не дружит / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Стоит отметить, что пока что не все надписи выходят красивыми и реалистично вписываются в окружение. Попытка выложить из звёзд на небе слово «STAR»(звезда) вышла не очень удачной:

Возможно, в этом случае стоило расставлять звёздочки руками в фотошопе / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Выводы и «пиццевый тест»

Во время предыдущих обзоров Midjourney мы проверяли нейросеть на картинках с пиццей и апельсиновым соком. Четвёртая версия красиво рисовала, по очень плохо понимала запрос: все апельсины оказывались не в стакане, а на пицце, и избавиться от них удалось, лишь полностью убрав слово «orange» из запроса. Версия 5.2 справилась лучше, разложив апельсины вокруг пиццы (и пару раз добавив их в начинку), а картинки вышли похожими на работу фуд-фотографа.

А вот шестая версия сперва разочаровала: по запросу «Photo of the pizza with glass of orange juice» мы получили и пиццу, и стакан с соком. Но вот сами картинки вышли недостаточно «вкусными», деталей не хватает, композиция тоже хромает.

В одной пицце всё-таки есть апельсины / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Засомневавшись, не сломалась ли Midjourney тот же самый запрос отправили версии 5.2, она она нарисовала гораздо более аппетитную картинку.

Пицца от Midjourney 5.2 / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

А вот шестая версия опять потребовала корректировки описания. Лишь сказав ей, что нужно именно рекламное фуд-фото, от неё удалось добиться более эстетичных результатов.

Фуд-фото, Midjourney v 6 / Иллюстрация: Алиса Смирнова, Фотосклад.Эксперт

Так что, далеко не всегда самая свежая версия Midjourney даст самый лучший, быстрый и красивый результат. Она лучше понимает описания, но в некоторых случаях это приводит к тому, что ей приходится долго подробно объяснять, какой результат от неё нужен. А вот версия 5.2 остаётся достаточно простой — к ней можно обратиться за теми самыми красивыми нейросетевыми картинками, получить их быстро и без проблем.