5 подписчиков

Китайская Красная Шапочка с иллюстрациями Midjourney и Dream by WOMBO

3 минуты

11 прочтений

17 марта 202317 мар 2023

Это вторая часть заметок об иллюстрации Красных Шапочек. Начало здесь:

Эстонская Красная Шапочка с иллюстрациями Midjourney

ExOfNot16 марта 2023

Как я писал в первой части, свои основные косяки я увидел лишь после того, как видео было опубликовано, поэтому решил попробовать проиллюстрировать еще одну песню — про Китайскую Красную Шапочку. Сложностей было две:

Видео песни записано горизонтально, и у меня больше нет шикарной возможности одновременно держать в кадре исполнителя и иллюстрации.
У автора песни очень богатая мимика, которую не хотелось перекрывать рисунками нейросетей.

Поигрался в видеоредакторе с созданием мини-кадра на переднем плане основного кадра, все вроде получилось, приступил к иллюстрациям.

«Вдали от Пекина, в китайском лесу» — я знаю, что Пекин существует, но как выглядит его самое узнаваемое место, не представляю. Обратился к поисковику, нашел такую фотографию:

Очень красиво! Пытался использовать это изображение как опорное в Midjourney, и результат всегда был хуже оригинала. Пришлось попросить ИИ просто нарисовать ночной Пекин (очень уж понравилась реальная ночная фотография) таким, каким его себе представляет нейросеть. Вот результат:

Третий кадр пошел в иллюстрации.

Обратите внимание: при апскейлинге не только прорабатываются мелкие детали, но некоторые элементы радикально изменяются (например, крыша здания в центре кадра).

С первыми словами первого куплета разобрались, двигаемся дальше, к «китайскому лесу». Никаких проблем, ИИ спокойно рисует реалистичный бамбуковый лес в Китае:

«Волк встретил случайно селянку Янь-Цзу» — да сколько угодно, выбирай на вкус:

и еще:

Создавались и совсем маленькие дети в красных шапочках, но, памятуя, что Янь-Цзу в одиночку тащит по лесу гору продуктов, в итоге выбрал такую:

Изображать застывшего Волка я не стал, переведя фокус на исполнителя в кадре, а затем позволив зрителю еще раз посмотреть на красоту девушки.

«За это спасибо китайцу-отцу.
И маме китайской, и дяде Фун-Цзу.»

Очень быстрый ритм. Если менять рисунки с частотой слов, можно эпилепсию вызвать у зрителя. Другой вариант: сделать групповой портрет с подписями кто есть кто. Третий вариант: контурные рисунки как у Штирлица в «Семнадцати мгновениях весны»:

Интересная идея, но я так не умею. Сделаем три карты и будем их открывать поочередно, тогда зритель успеет рассмотреть картинки. Ну, я так думаю. И подписи добавить! Но тогда зритель точно не успеет, фокус сместится на подписи... А мы сделаем подписи на китайском, и тогда ничего никуда не сместится. Наверное. Но это не точно. В общем, сделал.

Портреты получились с первой же попытки по запросам: «китаец-отец», «мама китайская» и «китайский дядя по имени Фун-Цзу»:

Двигаемся дальше к поклаже Красной Шапочки:

«Иду я к бабуле, гостинцы несу:
Щепоточку риса, женьшень и кинзу,
Котлеты домашние и колбасу».

Необходимо нарисовать сразу пять предметов. Я пробовал, не получилось. Вернемся опять к картам и будем показывать картинки поочередно, а чтоб не тратить драгоценные попытки в Midjourney, воспользуемся сервисом Dream by WOMBO. Это бесплатно, практически без ограничений (в бесплатной версии недоступны некоторые стили и одновременно генерится не четыре картинки, а одна). Сходите, попробуйте: https://dream.ai/create .

Мне пришлось изрядно намучиться с колбасой. Это не колбаса, это сосиски какие-то (правда, реалистичные), даже показывать не стану, а когда я попросил нарисовать толстую вареную колбасу, ИИ стал предлагать такое:

У меня есть подозрение, что в английском существует какой-то близкий аналог нашему идиоматическому выражению «деловая колбаса», в котором используется упоминание мясного продукта.)

И тем не менее после нескольких десятков попыток у меня сформировался окончательный вид поклажи:

Котлеты получились не очень убедительными, а колбаски все-таки тонковаты.

Впоследствии нунчаки, топор и косу тоже рисовал в Dream by WOMBO.

Больше ничего заслуживающего внимания не происходило, просто генерация новых запросов и отбор рисунков для иллюстрации песни. Разве что с самураями: как только я просил нарисовать их непременно пьяными (Seven drunken samurai stand in a summer forest), Midjourney использовала желто-коричневые тона и часто ошибалась в количестве мужчин в кадре:

С трезвыми самураями все было в порядке и рисунки были покрасочнее.

И вот наконец результат иллюстрации песни:

В качестве небольших пасхалок в видео добавлены надписи на китайском, и это вполне осмысленный текст.

Следует пояснить, что рисунки в Midjourney создавались в четвертой версии нейросети. В настоящее время уже вовсю работает пятая версия, которая якобы умеет хорошо помнить лица персонажей, а также внимательно следит за количеством конечностей у людей, но пока доступ к ней есть лишь у владельцев платных аккаунтов.