Найти в Дзене

"Шедеврум": перезагрузка

Мощный апгрейд нейросети на наглядных примерах

"When pigs fly", "Шедеврум" 0.5.0, экран, пиксели, 2023. Фрагмент.
"When pigs fly", "Шедеврум" 0.5.0, экран, пиксели, 2023. Фрагмент.

Если вы пробовали использовать ранние версии нейросети "Шедеврум", но вскоре забросили это дело, потеряв интерес из-за невысокого качества картинок и непредсказуемых результатов, сейчас самое время вернуться. Там в ваше отсутствие кое-что произошло, вы удивитесь.

Если же вы до сих пор ещё не пробовали создавать картинки при помощи искусственного интеллекта и не знакомы с "Шедеврумом", наступил удачный момент, чтобы познакомиться. Во всяком случае, от душевных травм при виде некоторых нейросетевых творений вы защищены - того, на что в своё время насмотрелись первопроходцы, больше уже не будет. Надеюсь.

Последнее обновление графической нейросети от "Яндекса" (случившееся не далее чем в минувшую субботу), как добрая фея, превратило "Шедеврум" из замарашки в почти принцессу (или принца, кто их там разберёт).

Нейросеть начала использовать новую для себя, но уже проверенную на других платформах генеративную модель на основе Stable Diffusion (этот вывод я делаю исключительно из собственных наблюдений - я не разработчик нейросетей и даже совсем не программист, но все улики говорят в пользу моей версии), и качество выдаваемого результата взлетело с третьей космической скоростью.

Правда, время рендера итогового изображения тоже взлетело и составляет теперь приблизительно бесконечность. Если четыре превьюшки генерируются, как и раньше, от нескольких секунд до пары минут, то окончательная отрисовка выбранного варианта картинки занимала у меня в тяжёлых случаях до двух часов. Наверняка в ближайшем будущем приложению подкинут мощностей, но пока при высокой загрузке за время рендера одной картинки вполне можно хорошо выспаться.

Чтобы наглядно продемонстрировать сообществу "Шедеврума", насколько он изменился в лучшую сторону, разработчики предложили пользователям испытать новую версию на своих же старых запросах и сравнить результаты.

Эти результаты я и покажу вам сегодня. Они расположены в хронологическом порядке выхода версий - от беты 0.1.4 до беты 0.2.0, хотя это и не имеет особого значения: уровень исполнения картинок у этих версий не менялся три месяца.

Запрос: человек и пришелец смотрят друг на друга, интерьер космического корабля на фоне, мягкое освещение.

"Шедеврум" 0.1.4
"Шедеврум" 0.1.4
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

"Однако за время пути пришелец успел подрасти..."

Запрос: оrnate crystal anatomic heart, decorated, suspended in the air, bokeh, fantasy scene, organic background (богато украшенное хрустальное анатомическое сердце, висящее в воздухе, боке, фантазийная сцена, органический фон).

"Шедеврум" 0.1.4
"Шедеврум" 0.1.4
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

Это единственная идея, которая была позаимствована мной у других. Целая коллекция таких сердец из драгоценных материалов, украшенных резьбой, цепями, цветами, болтами, пчелиными сотами и бог знает чем ещё, была впервые создана кем-то при помощи нейросети Midjourney, потом тренд подхватили другие, и сердца расползлись по интернету - в частности, Pinterest кишмя кишит такими картинками. В данном случае до детализации Midjourney "Шедевруму" ещё нужно дорасти, но прогресс уже налицо.

Запрос: поросёнок с большими крыльями вылетает из облака, крупным планом, большие пушистые облака, голубые, розовые, перламутровые, реалистично, кинематографично, атмосферно, нежно, цифровая живопись, высокая детализация.

"Шедеврум" 0.1.4
"Шедеврум" 0.1.4
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

И тогда, и сейчас "Шедеврум" не очень хорошо понимает, как соединить уши и крылья в одном поросёнке: либо не рисует крылья совсем, либо выращивает их прямо из ушей. В остальном получился прелестный Ниф-Ниф, чьи щетинки можно при желании сосчитать, настолько детально они прорисованы.

(К слову, "Кандинский" 2.1 с задачей разделения крыльев и ушей справился, но у его поросёнка шесть ног с тройными копытцами и двойной пятачок с четырьмя ноздрями. "Кандинский" 2.2 поступил радикально и поросёнка из сцены от греха подальше убрал вообще, оставив только облака с крыльями.)

Запрос: таинственное существо из тёмной материи.

"Шедеврум" 0.1.4
"Шедеврум" 0.1.4
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

Вам тоже первый монстр напомнил сериал "Очень странные дела", или это моё очень странное субъективное впечатление?

Запрос: рыжая белка-кондитер в поварском колпаке, белая мука на мордочке, делает ореховый торт, интерьер пекарни, тёплое солнечное освещение, жёлтый, оранжевый свет, пылинки в воздухе.

"Шедеврум" 0.1.4
"Шедеврум" 0.1.4

Версия 0.1.4 никак не хотела или не могла сгенерировать то, что мне было нужно. Мне потребовалось пять попыток, чтобы получить результат, близкий к моей задумке, и всё равно это было не то.

Версия 0.5.0 выдала целую бригаду белок-кондитеров, перепачканных в муке, и поставила меня перед муками выбора - все были одинаково хороши. Поэтому сюда выкладываю аж троих.

Кстати, во время сохранения картинки у "Шедеврума" случился какой-то занятный глюк. Выбранный мной вариант превью просто исчез с экрана, и приложение выдало извиняющееся сообщение об ошибке. Пришлось выбирать другую картинку из трёх оставшихся. К моему удивлению, в результате нейросеть обработала оба варианта, и мне повезло получить два рендера с одной попытки.

Запрос: Rusty mechanical hand holding a rosary, cyberpunk, aesthetic, high detail, high resolution, ethereal background lights (ржавая механическая рука держит чётки, киберпанк, эстетично, высокая детализация, высокое разрешение, неземные фоновые огни).

"Шедеврум" 0.1.5
"Шедеврум" 0.1.5
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

В соответствии со своими представлениями о прекрасном новая модель отполировала руку до блеска, а ведь её недвусмысленно просили изобразить ржавчину. Кроме того, странная цепь с брелоками не очень похожа на чётки, и рука не держит её, а лишь касается. В общем, описание мягко проигнорировано в деталях, зато всё красиво и блестит, чего уж.

Запрос: загадочные цветные светящиеся инопланетные огни в ночном небе над большим городом, реалистично, профессиональное фото.

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

В ответ на мой запрос "Шедеврум" предложил разные интерпретации описанной сцены: с летающими тарелками и без них. Этот вариант больше всего напоминал генерацию версии 0.2.0, хотя город здесь выглядит немного нетипично - будто бы вид на береговую линию из порта. Несмотря на то, что конструкции "порта" всё ещё построены случайным образом, в целом вышло очень атмосферно.

Запрос: чёрный маг.

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

М-да.

И ведь что интересно: выражение "чёрный маг" что по-русски, что по-английски означает одно и то же, и на обоих языках к цвету кожи это выражение никакого отношения не имеет. Но нейросеть упорно отказывалась придумывать волшебников какой-либо другой расы. С двух попыток нагенерировала восемь магов, и все родом из колыбели человечества.

Я, в принципе, не против, но что нужно сделать, чтобы маг был просто недобрым, а не недобрым и небелым одновременно?

Попробую "тёмный маг":

"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

Однозначно утверждать сложно, но, кажется, получилось.

Зато руки у всех магов в новой версии определённо находятся на пути к выздоровлению. Ещё не полностью человеческие, но уже заметны успехи.

Запрос: жар-птица из золота с филигранными перьями, украшенными драгоценными камнями, охваченными пламенем, голова крупным планом, высокая детализация.

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

Все четыре варианта от нового "Шедеврума" выглядели очень убедительно, и в трёх из них на перьях птицы были драгоценные камни. Но только в этом был огонь, поэтому он и победил. Пламя теперь вырывается из птицы, а не маячит где-то на заднем плане, а глаза стали живыми. Эти две детали компенсируют даже недоделку с перьями из беспорядочно накиданных золотых проволочек, которые по задумке должны были сложиться в изящный замысловатый узор - но не сложились. Ну, может, в другой раз.

Запрос: cyber wolf, sleek, hi tech, futuristic, detailed (киберволк, гладкий, высокотехнологичный, футуристичный, детализированный).

"Шедеврум" 0.2.0
"Шедеврум" 0.2.0
"Шедеврум" 0.5.0
"Шедеврум" 0.5.0

Что тут скажешь?.. С инженерной точки зрения ещё есть к чему стремиться, но общее впечатление строго положительное. Великолепная зверюга. В Boston Dynamics обзавидовались бы.

*

В общем, я надеюсь, что при помощи наглядной агитации мне удалось убедить вас в том, что "Шедеврум" нонеча - не то что давеча. Что изменилось? Стало появляться больше второстепенных деталей - объектов, которые делают сцену визуально богаче. Изображения стали более чёткими, увеличилась детализация и улучшилась прорисовка. Заметно усовершенствовалось и построение объектов - хорошо видно на примере рук, - уменьшилось количество нелепых ошибок.

Интересно то, что во многих случаях нейросеть сохранила старую композицию сюжетов - взаимное расположение объектов и угол, под которым они изображены, - а иногда даже черты и позы персонажей, но при этом полностью переосмыслила техническое исполнение.

Могу предположить, что композиция и стереотипные черты персонажей строятся искусственным интеллектом исходя из наиболее распространённых образцов, созданных человеком. То есть нейросеть просто повторяет сцены, изображения которых не просто где-то существуют, а существуют в большом количестве. У нестандартных поз и необычного угла зрения пока что очень мало шансов появиться в генерациях ИИ.

Так что не печальтесь, цифровые художники: пока искусственный интеллект не дорос до безграничной гибкости человеческого воображения, вы на голову выше любой нейросети.