Найти тему

Каков запрос — таков ответ: что случилось с фантазией "Шедеврума"

"Как я провёл вечер пятницы", "Шедеврум" 0.5.0 (0.2.0?), экран, пиксели, 2023. Наброски.
"Как я провёл вечер пятницы", "Шедеврум" 0.5.0 (0.2.0?), экран, пиксели, 2023. Наброски.

Сегодня я хочу проделать работу над ошибками, извиниться перед разработчиками "Шедеврума" и опровергнуть собственные же поспешные выводы о том, что после обновления генеративной модели нейросеть потеряла свою индивидуальность и больше не стремится к разнообразию.

На эту мысль меня сначала навело то обстоятельство, что четыре превью, которые нейросеть генерирует после каждого запроса, у версии 0.5.0 (или 0.2.0? - до сих пор не понимаю, какая версия сейчас используется) стали слишком похожими друг на друга, а до обновления они обычно различались самым радикальным образом.

Вот хороший пример: деревянная лошадка, сгенерированная до обновления...

"Шедеврум" 0.2.0, запрос: игрушечная деревянная лошадка.
"Шедеврум" 0.2.0, запрос: игрушечная деревянная лошадка.

...и парад воздушных шаров, сгенерированный после:

"Шедеврум" 0.5.0 (0.2.0?), запрос: hot air balloons over a valley with flowers at sunset.
"Шедеврум" 0.5.0 (0.2.0?), запрос: hot air balloons over a valley with flowers at sunset.

Тут нетрудно сделать вывод, что воображение "Шедеврума" насильно загнали в рамки, и теперь он начнёт штамповать бесконечные скучные клоны. Но это не совсем так. Моя ошибка заключалась в сравнении разных типов запросов, а на самом деле результат сильно зависит именно от них.

Иногда все четыре предложенных варианта действительно очень близки, да к тому же похожи на аналогичные результаты Leonardo (а значит, и предыдущей версии "Кандинского"), как здесь:

Или не похожи на Leonardo, но всё равно похожи между собой, как эти вариации лягушки: все они имитируют фотографии с плюс-минус одинаковым освещением и ракурсом, даже листья с одного куста.

"Шедеврум" 0.5.0 (0.2.0?), запрос: тропическая древесная лягушка, сиреневая, с золотыми пятнами, сидит на листе тропического растения, полумрак, крупный план, высокий контраст.
"Шедеврум" 0.5.0 (0.2.0?), запрос: тропическая древесная лягушка, сиреневая, с золотыми пятнами, сидит на листе тропического растения, полумрак, крупный план, высокий контраст.

Но довольно часто нейросеть предлагает на выбор как минимум разные техники и стили. Например, как на этих превьюшках: чёрно-белое фото, пиксель-арт и пара вариантов в стиле цифровой живописи. Leonardo, например, без дополнительных настроек так не делает.

"Шедеврум" 0.5.0 (0.2.0?), запрос: a forest in twilight with fireflies lighting up the trees.
"Шедеврум" 0.5.0 (0.2.0?), запрос: a forest in twilight with fireflies lighting up the trees.

А иногда стиль похож, но сюжеты заметно различаются:

"Шедеврум" 0.5.0 (0.2.0?), запрос: китайская сказка.
"Шедеврум" 0.5.0 (0.2.0?), запрос: китайская сказка.

Бывает и так, что все четыре варианта сильно различаются по всем параметрам:

"Шедеврум" 0.5.0 (0.2.0?), запрос: антропоморфный злой пылесос.
"Шедеврум" 0.5.0 (0.2.0?), запрос: антропоморфный злой пылесос.

Если сравнить запросы ко всем этим примерам, вырисовывается такая закономерность: чем точнее и подробнее вы составили описание картинки, тем выше вероятность получить похожие варианты генерации. И наоборот: чем меньше в запросе конкретики или чем он абсурднее, тем сильнее нейросеть креативит на своё усмотрение.

Как вам, например, злобный антропоморфный пылесос? Много моделей в наличии, есть даже промышленная (правда, не сказать чтоб антропоморфная). Или вот полёт фантазии на тему "сообщество" — понятие обширное, как хотите, так и интерпретируйте:

"Шедеврум" 0.5.0 (0.2.0?), запрос: сообщество.
"Шедеврум" 0.5.0 (0.2.0?), запрос: сообщество.

Напоследок не могу удержаться и не показать вам четыре абсолютных шедевра, созданных одной из лучших (это правда) нейросетей Leonardo AI с использованием одной из лучших (это тоже правда) внутренних моделей LeonardoDiffusion по запросу "friday night" (вечер/ночь пятницы):

Это не Малевич. Это Леонардо. Вы же не будете спорить с тем, что это вечер?

Каков запрос - таков ответ, в общем.