1295 подписчиков

Midjourney научился создавать единообразных персонажей в разных генерациях

12 марта 202412 мар 2024

201

3 мин

Один из главных недостатков генераторов изображений - невозможность создавать одинаковых персонажей в разных позах и локациях. И это огромное препятствие в их использовании для разработки игр, создании комиксов и т.п. И вот Midjourney, наконец, смог преодолеть это ограничение и внедрил возможность последовательно воссоздавать персонажей на новых изображениях. Проблема с невозможностью воссоздавать одинаковых персонажей была связана с тем, что большинство ИИ генераторов изображений полагаются на «диффузионные модели», инструменты, аналогичные или основанные на алгоритме генерации изображений Stable Diffusion с открытым исходным кодом Stability AI. Он работает очень грубо: берёт текст, введенный пользователем, и пытается собрать изображение попиксельно, выбирая элементы, соответствующие введённой подсказке. Почему единообразные персонажи так сложны для нейросетей Как и в случае с большими языковыми моделями (LLM), такими как ChatGPT от OpenAI или новый Command-R от Cohere , проблема вс

Оглавление

Почему единообразные персонажи так сложны для нейросетей
Как использовать новую функцию единообразия персонажей Midjourney

Проблема с невозможностью воссоздавать одинаковых персонажей была связана с тем, что большинство ИИ генераторов изображений полагаются на «диффузионные модели», инструменты, аналогичные или основанные на алгоритме генерации изображений Stable Diffusion с открытым исходным кодом Stability AI. Он работает очень грубо: берёт текст, введенный пользователем, и пытается собрать изображение попиксельно, выбирая элементы, соответствующие введённой подсказке.

Почему единообразные персонажи так сложны для нейросетей

Как и в случае с большими языковыми моделями (LLM), такими как ChatGPT от OpenAI или новый Command-R от Cohere , проблема всех генераторов изображений заключается в том, что ИИ генерирует что-то новое для каждого отдельного запроса, даже если подсказка повторяется или используются одни и те же ключевые слова.

Это здорово, если вам нужно создать совершенно новые изображения. Но что, если вы создаете раскадровку фильма, игры, графического романа, комикса или другого визуального средства, в котором один и тот же персонаж должен появляться в разных сценах, обстановке, с разными выражениями лица и реквизитом?

Именно этот сценарий до сих пор было очень сложно реализовать с помощью генеративного ИИ. Но Midjourney теперь пытается это исправить, представив новый тег «-cref» (сокращенно от «ссылка на персонажа»), который пользователи могут добавлять в конец своих текстовых подсказок. В этом случае Midjourney будет пытаться создавать картинки с соответствующим лицом, телосложением и даже одеждой, беря их из URL-адреса, который пользователь вставляет после указанного тега.

По мере развития и совершенствования этой функции Midjourney может превратиться из классной игрушки или источника идей в более профессиональный инструмент.

Как использовать новую функцию единообразия персонажей Midjourney

Тег лучше всего работает с изображениями, ранее созданными в Midjourney. То есть рабочий процесс будет заключаться в том, чтобы сначала сгенерировать персонажа, а потом использовать URL-адрес для получения других кадров с ним.

Давайте попробуем пройти весь этот путь. Начнём с такой подсказки: «мускулистый лысый мужчина с бусами и повязкой на глазу».

Мы увеличим изображение, которое нам больше всего понравилось, а затем, удерживая клавишу Ctrl, кликаем нему и выбираем опцию «Copy link» (копировать ссылку).

Затем мы можем ввести новые подробности «в белом смокинге, стоящий на вилле –cref [URL]» и вставить URL-адрес изображения, которое мы только что сгенерировали. Midjourney попытается сгенерировать того же персонажа, что и раньше, но с новыми деталями.

К сожалению, результаты пока далеки от исходного персонажа (и даже от исходной подсказки), но, в целом, обнадеживают.

Кроме того, пользователь может в некоторой степени контролировать «вес» исходного изображения, то есть насколько точно новая картинка воспроизводит оригинал. Для этого нужно добавить после урла тег «-cw» с числом от 1 до 100, например: «–cref [URL] –cw 100». Чем меньше число «cw», тем больше отличий от исходника будет в итоговом изображении. Чем выше число «cw», тем точнее новое изображение будет соответствовать исходной ссылке.

На примере ниже видно, что ввод очень низкого значения «cw 8» позволил получить желаемый белый смокинг. Однако теперь потерялась повязка на глазу.

Ну что ж, нет ничего такого, чего нельзя было бы исправить с помощью “vary region”...

Итак, повязка появилась, но не на том глазу… Но это уже большой прогресс!

Вы также можете объединить несколько изображений, используя два тега «-cref» рядом с соответствующими URL-адресами. Но эта функция только-только была запущена. Если у вас есть Midjourney, можете сами попробовать.

Ещё раз краткая инструкция по использованию новой фичи:

Введите --cref URL после подсказки, где URL - ссылка на изображение персонажа.
Вы можете использовать --cw для изменения «веса» ссылки от 100 до 0.
Вес 100 ( --cw 100) используется по умолчанию, чтобы точно воспроизвести лицо, волосы и одежду.
При весе 0 ( --cw 0) нейросеть будет фокусироваться только на лице (подходит для смены одежды/прически и т. д.)

Психогенетика

9688 интересуются