Найти тему

Опять Роджер Желязны, и нейросети Stable Diffusion и Recraft

Оглавление

Нежданно-негаданно оказался на почти «необитаемом острове», на котором был полный отрыв от привычной деятельности, а для души можно было взять несколько книжек. Я прихватил свои любимые «Хроники Эмбера» Роджера Желязны на английском. Благо, они совсем маленькие.

По возвращении захотелось сгенерить в нейронных сетях несколько картинок, к которым в тексте были даны описания. Ведь промпты для генерации лучше задавать на английском.

Попробовал сначала визуализировать мантикору (manticora), злобное хищное существо, с лицом человека на львиной голове, крыльями и жалом.

Нейросеть Stable Diffusion и мантикора

Выбрал сначала эту нейросеть, потому что считал, что она неплохо понимает и транслирует в изображения текстовые описания (промпты).

Увы, получилось совсем не то, что ожидал.

Вначале пытался брать за основу какое-то животное. А потом в описании указывал, что это фантастическая толстая длинная бестия, похожая на (гусеницу, крокодила, анаконду, питона) с плечами и головой льва, человеческим лицом, орлиными крыльями и скорпионьим жалом.

Но всё получалось неправильно. То было слишком много ног. То она не летала. То получался орёл или слонопотам с львиной головой. То что-то несуразное.

Впрочем, судите сами.

Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion

Получались и просто монстры.

Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion
Мантикора в исполнении Stable Diffusion

Потом пришлось покопаться в источниках. Выяснилось, что есть своя специфика в изображении животных. Но если с обычными ещё что-то получалось, то с фантастическими вышло совсем не так, как хотелось.

По опыту знаю, что в случае стойких неудач нужно отодвинуть задачу в сторонку и дать подсознанию сформулировать подсказки к решению.

Поэтому отложил мантикору. Решил пока пойти несколько другим путём: взять за образец иллюстрацию из книги и попытаться повторить её.

Ружья Авалона

Это картинка ко второй книжке Хроник Эмбера:

Иллюстрация ко 2-й книге Хроник Эмбера
Иллюстрация ко 2-й книге Хроник Эмбера

По всей видимости, на ней изображена Лорейн, женщина, встретившаяся Корвину, на его пути бегства и возвращения в Эмбер. У неё в роду были ведьмы или шаманки. Отсюда и поднятые вверх руки при обращении к потусторонним силам.

Конечно же, описания картинки в тексте нет, сочинял сам. Оно оказалось достаточно сложным. Но сразу получить желаемое не удалось. Пришлось промпт создавать по частям. Для этого хорошо подходит нейронная сеть Recraft. Генерация 4-х вариантов изображения 512 х 512 пикселей занимала всего 10-20 секунд. Можно было быстро модифицировать запрос и наглядно видеть что меняется.

Нейросеть Recraft и Лорейн

Подходов к решению было сделано очень много.

Почему-то долго не удавалось получить короткую растрепанную стрижку. Поэтому в большинстве попыток получалась причёска с длинными волосами. И не растрепанными.

Лорейн 2. Нейросеть Recraft
Лорейн 2. Нейросеть Recraft
Лорейн 3. Нейросеть Recraft
Лорейн 3. Нейросеть Recraft
Лорейн 4. Нейросеть Recraft
Лорейн 4. Нейросеть Recraft
Лорейн 5. Нейросеть Recraft
Лорейн 5. Нейросеть Recraft
Лорейн 6. Нейросеть Recraft
Лорейн 6. Нейросеть Recraft
Лорейн 7. Нейросеть Recraft
Лорейн 7. Нейросеть Recraft
Лорейн 8. Нейросеть Recraft
Лорейн 8. Нейросеть Recraft
Лорейн 9. Нейросеть Recraft
Лорейн 9. Нейросеть Recraft

Только в попытке № 7 удалось получить собранные волосы (а-ля короткая стрижка).

Правда, уже на излёте моих сил, начав всё с нуля, удалось получить и не очень длинную причёску, и даже поднятые вверх волосы:

Недлинные растрёпанные волосы. Нейросеть Recraft
Недлинные растрёпанные волосы. Нейросеть Recraft

А вот прямое указание в промпте взгляда вверх никак не помогало.

Уж что только ни пробовал:

— looking up

— looking upward

— looking upwards

— pointed upward

— head up

— face up

— with head thrown upwards

Всё равно, почему-то получался взгляд вбок:

Просто короткая стрижка. Нейросеть Recraft
Просто короткая стрижка. Нейросеть Recraft

Или вперёд, как на картинках выше.

И только в попытке № 9 удалось поднять голову вверх (и почти удалось в № 8). Но в тех промптах указания на положение головы не было вовсе!

В уже начавшуюся эпоху нейронных сетей очень важно будет правильно составлять промпты. Я и был прав, говоря о важности нарождающейся профессии промпт-инженера и английского языка в своей программной статье Нейронные сети: у истоков новой цивилизации.

Интересно было бы узнать мнение читателей, какое из изображений ближе всего приблизилось к иллюстрации к книге. Напишите в комментариях, кому не лень!

Знак Единорога

Напоследок, привожу иллюстрацию к 3-й книге Хроник — Знак Единорога.

Единорог — тотемное животное клана эмберитов.

Иллюстрация к 3-й книге Хроник Эмбера
Иллюстрация к 3-й книге Хроник Эмбера

Можете сравнить, насколько удачно получилось моё изображение Единорога в предыдущих попытках визуализации Хроник Эмбера.

PS.

Если кликнуть по названию канала, то увидите другие статьи. Можно выбрать еще что-то интересное для себя. А для просмотра будущих статей и поддержки автора — лучше вообще подписаться.

Имеется также постоянно обновляемый гид-путеводитель по статьям канала.

#нейросеть #нейронныесети #ИИ #AI #neuralnetworks #искусственныйинтеллект #генерацияизображений #stablediffusion #роджержелязны #хроникиэмбера #лабиринтэмбера #Recraft