В конце 2023 года Midjourney выпустила новую шестую версию своей нейросети для создания изображений. Обновлённая нейросеть рисует ещё лучше (почти никогда не ошибается с количеством пальцев), научилась писать и стала умнее — лучше понимает запросы своих пользователей. Тестируем и смотрим, что изменилось по сравнению с предыдущей версией.
Развитие нейросетей для создания изображений идёт в двух направлениях. Во-первых, это увеличение реалистичности генерируемых изображений. Это и люди с пятью пальцами на руках, растущих из плеч (а не монстры с «веником» пальцев и тремя левыми руками, как в первых нейросетевых картинках), и правильная работа с ГРИП, когда созданную нейросетью картинку не отличить от съёмки на светосильный объектив, и возможность создавать с помощью нейросети не только «идеальные» картинки, похожие на цифровые картины, но и живые изображения, похожие на репортажное фото или снятые мимоходом на смартфон кадры.
Во-вторых, нейросети учатся лучше понимать людей, поддерживают более длинные и сложные запросы с описанием персонажей, действий и стиля изображения. И даже способны «понять» и разместить на картинке читаемую надпись из нескольких слов, а не неведомые закорючки вместо букв (по крайней мере, свежая Midjourney v6 неплохо с этим справляется в большинстве случаев).
Настройки и интерфейс Midjourney v6
Для тех, кто никогда раньше не работал с нейросетью Midjourney и не читал наши предыдущие тексты о ней, вкратце напомним основы. Нейросеть работает на удалённых серверах, а доступ к ней и общение происходит в чатах Discord (можно использовать как веб-версию Discord в браузере, так отдельное приложение для компьютера или смартфона). При этом и запросы к нейросети, и созданные Midjourney картинки видны всем участникам чата.
Чтобы использовать самую свежую версию Midjourney, её нужно включить в настройках. Для этого можно либо вызвать меню настроек командной /settings и выбрать в нём Midjourney v6 (в этом случае шестая версия будет использоваться по умолчанию для всех генераций), либо использовать ключ --v 6 в конце текстового описания (если использовать ключ, модель Midjourney v6 будет использована только для текущего запроса)
Кнопки и параметры Midjourney v6
После того, как нейросеть создала картинку (точнее, целых четыре варианта картинки по заданному описанию), становятся доступны уже знакомые по предыдущим версиям нейросети кнопки U1—U4 (1), с помощью которых можно увеличить понравившуюся картинку и V1—V4 (3), создающие новые варианты выбранного изображения. Если же ничего не понравилось, можно использовать кнопку (2) и сгенерировать картинки заново.
Если же увеличить один из вариантов, появится больше интересных кнопок и возможностей. Верхний предлагает ряд кнопок предлагает дополнительно увеличить картинку с помощью кнопок Upscale, создать вариант всего изображения кнопками Vary или изменить только часть картинки с помощью кнопки Vary Region.
Следующий ряд — кнопки Zoom Out и Make Square, знакомые по пятой версии Midjourney. Третий ряд — кнопки со стрелками, которые увеличивают и дорисовывают изображение в указанном стрелкой направлении (это похоже на функцию Generative Expand в Adobe Photoshop.
Вот так выглядит исходное изображение по запросу «a man walks along a busy street in Moscow, a still from the film by Denis Villeneuve» (человек идёт по оживлённой улице в Москве, кадр из фильма Дени Вильнёва) и его «расширенный» вариант:
Теперь вернёмся к кнопкам Upscale и Vary. Как видно на картинке выше, у этих кнопок есть два варианта: кнопка с надписью Subtle (переводится как тонкий, неуловимый, едва различимый) вносит очень небольшие и почти незаметные изменения в картинку при масштабировании или создании вариантов, а вот работа кнопок Upscale (Creative) и Vary (Strong) вносит гораздо больше изменений в исходник.
Вот как это выглядит на примере Upscale (Subtle) и Upscale (Creative). Слева — исходная картинка, нейросеть создала её размером 816х1456 пикселей. Посередине — результат увеличения кнопкой Upscale (Subtle). Размер картинки вырос в два раза, детализация выросла, шерсть и металлические текстуры выглядят лучше и резче. Справа — увеличение с помощью Upscale (Creative). Композиция сохранилась, но текстура шланга, форма «наушников» и даже боке на фоне немного изменились, а наш ёж стал больше похож на собаку или енота.
Помимо кнопок, которые используются для работы с уже созданным изображением, существуют текстовые ключи. Они вводятся в конце запроса и влияют на настройки нейросети, которые будут задействованы при генерации картинки. Вот самые важные из них:
--v — задаёт версию нейросети, используемую для генерации (от 1 до 6, включая версии 5.1 и 5.2)
--ar или --aspect — соотношение сторон изображения, ширина:высота (например, 3:2 или 16:9)
--no — даёт возможность добавить описание того, чего не должно быть на картинке (--no plants — без растений, -- no red colors — без оттенков красного и т. п.)
--r или --repeat — используется, если нужно создать не 4 варианта картинки по одному описанию, а гораздо больше. Максимум — 40 повторов,в каждом из которых Midjourney нарисует по четыре изображения.
--stop — останавливает работу нейросети и выдает нарисованную не до конца картинку, степень «готовности» задаётся числом от 10 до 100 (например, --stop 25 выдаст готовую на 25% картинку)
--tile — создаёт бесшовные паттерны и текстуры
--weird — создаёт «странные» картинки с необычной эстетикой, степень «странности» задаётся числом от 0 до 3000.
Новые возможности Midjourney v6 и сравнение с v5.2
Midjourney v6 лучше понимает сложные запросы
В шестой версии разработчики Midjourney сильно улучшили способность нейросети понимать запросы со сложными описаниями, в которых используются цвета объектов, их взаимное расположение и т п. Раньше у неё были с эти проблемы, и она могла просто проигнорировать часть деталей, сохранив общую тему запроса.
Для примера мы попросили нейросеть нарисовать рыжего мужчину в зеленом пиджаке, потёртой бейсболке и жёлтых солнцезащитных очках, с таксой на руках, который сидит на синей скамейке под цветущей яблоней на фоне розово-пурпурного заката.
Версия 5.2 нарисовала мужчину, собаку, дерево и закат. При этом закат вышел скорее оранжевый, зелёный пиджак и жёлтые очки отсутствуют на всех четырёх картинках, синяя скамейка — 1 шт, от таксы присутствуют только далёкие предки на одной картинке (зато все собаки рыжие, как и их владельцы).
Теперь тот же самый запрос адресуем шестой версии нейросети. Вышло довольно интересно. Все детали на месте, Midjourney покрасила скамейку и закат в нужный цвет, надела на мужчину бейсболку и вручила ему таксу. Но вот стиль картинок изменился — вместо фотореализма пятой версии получилось что-то похожее на цифровую живопись.
Чтобы получить в Midjourney v6 не рисунок, а фотографию, пришлось немного доработать запрос и начать его словами «Photo of the … ». И это дало нужный результат — цвета и детали на месте, а картинки теперь похожи на фотографии:
Midjourney v6 умеет создавать читаемые надписи
После обновления Midjourney стала не только лучше читать, но и лучше писать. Теперь можно попросить нейросеть создать вывеску на здании, вышить её на куртке или выложить из камней. На данный момент писать Midjourney умеет только на английском языке, надпись в запросе должна быть вот в прямых кавычках, вот таких: "слово в кавычках".
Стоит отметить, что пока что не все надписи выходят красивыми и реалистично вписываются в окружение. Попытка выложить из звёзд на небе слово «STAR»(звезда) вышла не очень удачной:
Выводы и «пиццевый тест»
Во время предыдущих обзоров Midjourney мы проверяли нейросеть на картинках с пиццей и апельсиновым соком. Четвёртая версия красиво рисовала, по очень плохо понимала запрос: все апельсины оказывались не в стакане, а на пицце, и избавиться от них удалось, лишь полностью убрав слово «orange» из запроса. Версия 5.2 справилась лучше, разложив апельсины вокруг пиццы (и пару раз добавив их в начинку), а картинки вышли похожими на работу фуд-фотографа.
А вот шестая версия сперва разочаровала: по запросу «Photo of the pizza with glass of orange juice» мы получили и пиццу, и стакан с соком. Но вот сами картинки вышли недостаточно «вкусными», деталей не хватает, композиция тоже хромает.
Засомневавшись, не сломалась ли Midjourney тот же самый запрос отправили версии 5.2, она она нарисовала гораздо более аппетитную картинку.
А вот шестая версия опять потребовала корректировки описания. Лишь сказав ей, что нужно именно рекламное фуд-фото, от неё удалось добиться более эстетичных результатов.
Так что, далеко не всегда самая свежая версия Midjourney даст самый лучший, быстрый и красивый результат. Она лучше понимает описания, но в некоторых случаях это приводит к тому, что ей приходится долго подробно объяснять, какой результат от неё нужен. А вот версия 5.2 остаётся достаточно простой — к ней можно обратиться за теми самыми красивыми нейросетевыми картинками, получить их быстро и без проблем.