523 подписчика

"Шедеврум": перезагрузка

13 июля 202313 июл 2023

193

7 мин

Мощный апгрейд нейросети на наглядных примерах

Если вы пробовали использовать ранние версии нейросети "Шедеврум", но вскоре забросили это дело, потеряв интерес из-за невысокого качества картинок и непредсказуемых результатов, сейчас самое время вернуться. Там в ваше отсутствие кое-что произошло, вы удивитесь.

Если же вы до сих пор ещё не пробовали создавать картинки при помощи искусственного интеллекта и не знакомы с "Шедеврумом", наступил удачный момент, чтобы познакомиться. Во всяком случае, от душевных травм при виде некоторых нейросетевых творений вы защищены - того, на что в своё время насмотрелись первопроходцы, больше уже не будет. Надеюсь.

Последнее обновление графической нейросети от "Яндекса" (случившееся не далее чем в минувшую субботу), как добрая фея, превратило "Шедеврум" из замарашки в почти принцессу (или принца, кто их там разберёт).

Нейросеть начала использовать новую для себя, но уже проверенную на других платформах генеративную модель на основе Stable Diffusion (этот вывод я делаю исключительно из собственных наблюдений - я не разработчик нейросетей и даже совсем не программист, но все улики говорят в пользу моей версии), и качество выдаваемого результата взлетело с третьей космической скоростью.

Правда, время рендера итогового изображения тоже взлетело и составляет теперь приблизительно бесконечность. Если четыре превьюшки генерируются, как и раньше, от нескольких секунд до пары минут, то окончательная отрисовка выбранного варианта картинки занимала у меня в тяжёлых случаях до двух часов. Наверняка в ближайшем будущем приложению подкинут мощностей, но пока при высокой загрузке за время рендера одной картинки вполне можно хорошо выспаться.

Чтобы наглядно продемонстрировать сообществу "Шедеврума", насколько он изменился в лучшую сторону, разработчики предложили пользователям испытать новую версию на своих же старых запросах и сравнить результаты.

Эти результаты я и покажу вам сегодня. Они расположены в хронологическом порядке выхода версий - от беты 0.1.4 до беты 0.2.0, хотя это и не имеет особого значения: уровень исполнения картинок у этих версий не менялся три месяца.

Запрос: человек и пришелец смотрят друг на друга, интерьер космического корабля на фоне, мягкое освещение.

"Однако за время пути пришелец успел подрасти..."

Запрос: оrnate crystal anatomic heart, decorated, suspended in the air, bokeh, fantasy scene, organic background (богато украшенное хрустальное анатомическое сердце, висящее в воздухе, боке, фантазийная сцена, органический фон).

Это единственная идея, которая была позаимствована мной у других. Целая коллекция таких сердец из драгоценных материалов, украшенных резьбой, цепями, цветами, болтами, пчелиными сотами и бог знает чем ещё, была впервые создана кем-то при помощи нейросети Midjourney, потом тренд подхватили другие, и сердца расползлись по интернету - в частности, Pinterest кишмя кишит такими картинками. В данном случае до детализации Midjourney "Шедевруму" ещё нужно дорасти, но прогресс уже налицо.

Запрос: поросёнок с большими крыльями вылетает из облака, крупным планом, большие пушистые облака, голубые, розовые, перламутровые, реалистично, кинематографично, атмосферно, нежно, цифровая живопись, высокая детализация.

И тогда, и сейчас "Шедеврум" не очень хорошо понимает, как соединить уши и крылья в одном поросёнке: либо не рисует крылья совсем, либо выращивает их прямо из ушей. В остальном получился прелестный Ниф-Ниф, чьи щетинки можно при желании сосчитать, настолько детально они прорисованы.

(К слову, "Кандинский" 2.1 с задачей разделения крыльев и ушей справился, но у его поросёнка шесть ног с тройными копытцами и двойной пятачок с четырьмя ноздрями. "Кандинский" 2.2 поступил радикально и поросёнка из сцены от греха подальше убрал вообще, оставив только облака с крыльями.)

Запрос: таинственное существо из тёмной материи.

Вам тоже первый монстр напомнил сериал "Очень странные дела", или это моё очень странное субъективное впечатление?

Запрос: рыжая белка-кондитер в поварском колпаке, белая мука на мордочке, делает ореховый торт, интерьер пекарни, тёплое солнечное освещение, жёлтый, оранжевый свет, пылинки в воздухе.

Версия 0.1.4 никак не хотела или не могла сгенерировать то, что мне было нужно. Мне потребовалось пять попыток, чтобы получить результат, близкий к моей задумке, и всё равно это было не то.

Версия 0.5.0 выдала целую бригаду белок-кондитеров, перепачканных в муке, и поставила меня перед муками выбора - все были одинаково хороши. Поэтому сюда выкладываю аж троих.

Кстати, во время сохранения картинки у "Шедеврума" случился какой-то занятный глюк. Выбранный мной вариант превью просто исчез с экрана, и приложение выдало извиняющееся сообщение об ошибке. Пришлось выбирать другую картинку из трёх оставшихся. К моему удивлению, в результате нейросеть обработала оба варианта, и мне повезло получить два рендера с одной попытки.

Запрос: Rusty mechanical hand holding a rosary, cyberpunk, aesthetic, high detail, high resolution, ethereal background lights (ржавая механическая рука держит чётки, киберпанк, эстетично, высокая детализация, высокое разрешение, неземные фоновые огни).

В соответствии со своими представлениями о прекрасном новая модель отполировала руку до блеска, а ведь её недвусмысленно просили изобразить ржавчину. Кроме того, странная цепь с брелоками не очень похожа на чётки, и рука не держит её, а лишь касается. В общем, описание мягко проигнорировано в деталях, зато всё красиво и блестит, чего уж.

Запрос: загадочные цветные светящиеся инопланетные огни в ночном небе над большим городом, реалистично, профессиональное фото.

В ответ на мой запрос "Шедеврум" предложил разные интерпретации описанной сцены: с летающими тарелками и без них. Этот вариант больше всего напоминал генерацию версии 0.2.0, хотя город здесь выглядит немного нетипично - будто бы вид на береговую линию из порта. Несмотря на то, что конструкции "порта" всё ещё построены случайным образом, в целом вышло очень атмосферно.

Запрос: чёрный маг.

М-да.

И ведь что интересно: выражение "чёрный маг" что по-русски, что по-английски означает одно и то же, и на обоих языках к цвету кожи это выражение никакого отношения не имеет. Но нейросеть упорно отказывалась придумывать волшебников какой-либо другой расы. С двух попыток нагенерировала восемь магов, и все родом из колыбели человечества.

Я, в принципе, не против, но что нужно сделать, чтобы маг был просто недобрым, а не недобрым и небелым одновременно?

Попробую "тёмный маг":

Однозначно утверждать сложно, но, кажется, получилось.

Зато руки у всех магов в новой версии определённо находятся на пути к выздоровлению. Ещё не полностью человеческие, но уже заметны успехи.

Запрос: жар-птица из золота с филигранными перьями, украшенными драгоценными камнями, охваченными пламенем, голова крупным планом, высокая детализация.

Все четыре варианта от нового "Шедеврума" выглядели очень убедительно, и в трёх из них на перьях птицы были драгоценные камни. Но только в этом был огонь, поэтому он и победил. Пламя теперь вырывается из птицы, а не маячит где-то на заднем плане, а глаза стали живыми. Эти две детали компенсируют даже недоделку с перьями из беспорядочно накиданных золотых проволочек, которые по задумке должны были сложиться в изящный замысловатый узор - но не сложились. Ну, может, в другой раз.

Запрос: cyber wolf, sleek, hi tech, futuristic, detailed (киберволк, гладкий, высокотехнологичный, футуристичный, детализированный).

Что тут скажешь?.. С инженерной точки зрения ещё есть к чему стремиться, но общее впечатление строго положительное. Великолепная зверюга. В Boston Dynamics обзавидовались бы.

В общем, я надеюсь, что при помощи наглядной агитации мне удалось убедить вас в том, что "Шедеврум" нонеча - не то что давеча. Что изменилось? Стало появляться больше второстепенных деталей - объектов, которые делают сцену визуально богаче. Изображения стали более чёткими, увеличилась детализация и улучшилась прорисовка. Заметно усовершенствовалось и построение объектов - хорошо видно на примере рук, - уменьшилось количество нелепых ошибок.

Интересно то, что во многих случаях нейросеть сохранила старую композицию сюжетов - взаимное расположение объектов и угол, под которым они изображены, - а иногда даже черты и позы персонажей, но при этом полностью переосмыслила техническое исполнение.

Могу предположить, что композиция и стереотипные черты персонажей строятся искусственным интеллектом исходя из наиболее распространённых образцов, созданных человеком. То есть нейросеть просто повторяет сцены, изображения которых не просто где-то существуют, а существуют в большом количестве. У нестандартных поз и необычного угла зрения пока что очень мало шансов появиться в генерациях ИИ.

Так что не печальтесь, цифровые художники: пока искусственный интеллект не дорос до безграничной гибкости человеческого воображения, вы на голову выше любой нейросети.