Найти тему
НЕйро ПРО Дизайн

Лимон по визуальному промпту

Оглавление

Рисуем в нейросети по визуальному промпту.
Задаем сюжет. Управляем стилем, композицией, цветом.

Нейросети генерируют изображение прежде всего по текстовой подсказке. Первоначально промты надо было писать по строго определенному шаблону, использовать условные символы (скобки, двойные точки, двоеточия) для выражения определенных понятий, только так нейросеть правильно трактовала сказанное. Постепенно алгоритмы нейросетей совершенствуются и язык промптов становится все более похожим на повседневную речь. Но даже, используя все богатство языка, трудно выразить все нюансы будущего рисунка, Гораздо проще это выражает простой набросок композиции, пример цветовой гаммы, обычный эскиз. Визуальные и текстовые промпты хорошо дополняют друг друга.
Промпт, который гарантирует результат должен состоять из двух частей, текстовой и визуальной:

  • текстовая часть описывает, ЧТО надо изобразить,
  • текстовое описание СТИЛЯ изображения,
  • пример художника или фотографа чьим стилем можно руководствоваться при рендере изображения (фамилия на языке оригинала, страну, область деятельности)
  • графический пример, фотография наброска выполненного от руки, или сделанный в прикладной программе скетч.

Кроме промпта на результат рендера большое влияние оказывает выбранная модель и Diffusion sampling method. Diffusion sampling method помогает улучшить качество генерации изображения и достичь более плавных и реалистичных результатов. Он позволяет модели AI учитывать информацию из предыдущих шагов при генерации текущего пикселя, что способствует более точному воссозданию изображения. Но на характеристики этих параметров пользователь влиять не может, он может только выбрать предлагаемые модели из списка. Зато в создании эскиза будущей работы нам предоставляется полная свобода. И тут открываются практически не ограниченные возможности.

В качестве примера рассмотрим одну серию рендеров выполненных по графическому промпту, рисованному от руки скетчу.

Программа: Playgroundai
Mode:
Staple Diffusion XL
Diffusion sampling method:
k_dpm_2_ancestral.
Эта модель м метод недавно стали применятся в программе Playground. Их сочетание дает при рендере наиболее точные реалистичные изображения. Название метода расшифровывается следующим образом:
"k" обозначает количество шагов или итераций, которые используются в методе.
"dpm" означает "Dirichlet Process Mixture", что указывает на использование модели смеси или комбинации различных распределений вероятностей через процесс "Дирихле".
"2" может указывать на количество компонент или градаций в модели смеси, которые используются для генерации выборок.
"ancestral" означает, что метод использует концепцию "предков" или исторических значений для генерации новых выборок.

Текстовой промпт звучит так:

Woman and lemon,

black, gray, yellow,

Etching, aquatint, lithograph,

Working out details, fine lines, restrained color scheme, natural light,

in the style of artist
Hans Bellmer,

professional ominous concept art, by artgerm and
Greg Rutkowski, an intricate, elegant, highly detailed digital painting, concept art, smooth, sharp focus, illustration, in the style of Simon Stalenhag, Wayne Barlowe, and Igor Kieryluk

Текст промпта специально разбит на части, каждая из которых несет свою смысловую нагрузку. Последняя часть промпта программа дописывает сама, при выборе так называемого "Фильтра". Фильтр придает определенную стилистику генерируемому изображению. В данном примере это усиливает и подчеркивает выбранный стиль рисунка.


А теперь посмотрим на графический промпт:

Наброск карандашом и фломастером по простой офисной бумаге
Наброск карандашом и фломастером по простой офисной бумаге

На первый взгляд малообещающее начало :). Но только на первый взгляд. Визуальный промпт не должен ограничивать "творчество" нейросети. Он должен содержать только набросок композиции, намек на сюжет, задавать цветовую гамму и манеру рисунка. Все остальное доработает Нейросеть. Нейросеть должна выступать в работе творческим партнером, а не исполнителем.

Что плучилось в результате

-3
-4
-5
-6

На мой взгляд диффузионная модель сотворила чудеса!

Связь со скетчем явно прослеживается: расположение фигур, их взаимодействие, распределение цвета. Стиль исполнения имеет некий отсыл к творчеству упомянутых в промте художников. Техника исполнения достаточно точно имитирует офорт с акватинтой. Женские образы, скорее всего заложены в модель Stable Diffusion XL. За качество проработки отвечает выбранный Diffusion sampling method.

А вот еще один вариант в рамках заданных промптов.

-7

Кроме всех перечисленных параметров на конечный результат влияет image strength. Это число от 0 до 100 показывает на сколько рендер должен быть похож на визуальный промпт. В данном случае число было сильно занижено, и вместо двух женщин программа сгенерировала только одну. Зато лимона три :)

Изменим исходный набросок

-8

Теперь женщина находится с лимоном наедине.
Вот что получилось при сохранении всех прежних параметров рендера:

-9
-10
-11
-12
-13

Пока еще нейросетям плохо удается рисовать руки и пальцы. Чтобы не вводить алгоритмы в соблазн при рендере всех вышестоящих работ использовался отрицательный промпт:

Hands, fingers, palms, extra fingers, extra hands, extra feet, doubled heads, slanted eyes, ugly face, distorted proportions, freaks, feet, wrong feet, severed limbs, severed heads

А как поведет себя программа если убрать визуальную подсказку?
Стилистика рисунка практически сохранится (ведь она задана в текстовой части). Изменится только композиционное решение и полутоновое моделирование формы.

-14

Мы обязательно продолжим опыты генерирования изображений по рисованным подсказкам.