Это вторая часть заметок об иллюстрации Красных Шапочек. Начало здесь:
Как я писал в первой части, свои основные косяки я увидел лишь после того, как видео было опубликовано, поэтому решил попробовать проиллюстрировать еще одну песню — про Китайскую Красную Шапочку. Сложностей было две:
- Видео песни записано горизонтально, и у меня больше нет шикарной возможности одновременно держать в кадре исполнителя и иллюстрации.
- У автора песни очень богатая мимика, которую не хотелось перекрывать рисунками нейросетей.
Поигрался в видеоредакторе с созданием мини-кадра на переднем плане основного кадра, все вроде получилось, приступил к иллюстрациям.
«Вдали от Пекина, в китайском лесу» — я знаю, что Пекин существует, но как выглядит его самое узнаваемое место, не представляю. Обратился к поисковику, нашел такую фотографию:
Очень красиво! Пытался использовать это изображение как опорное в Midjourney, и результат всегда был хуже оригинала. Пришлось попросить ИИ просто нарисовать ночной Пекин (очень уж понравилась реальная ночная фотография) таким, каким его себе представляет нейросеть. Вот результат:
Третий кадр пошел в иллюстрации.
С первыми словами первого куплета разобрались, двигаемся дальше, к «китайскому лесу». Никаких проблем, ИИ спокойно рисует реалистичный бамбуковый лес в Китае:
«Волк встретил случайно селянку Янь-Цзу» — да сколько угодно, выбирай на вкус:
и еще:
Создавались и совсем маленькие дети в красных шапочках, но, памятуя, что Янь-Цзу в одиночку тащит по лесу гору продуктов, в итоге выбрал такую:
Изображать застывшего Волка я не стал, переведя фокус на исполнителя в кадре, а затем позволив зрителю еще раз посмотреть на красоту девушки.
«За это спасибо китайцу-отцу.
И маме китайской, и дяде Фун-Цзу.»
Очень быстрый ритм. Если менять рисунки с частотой слов, можно эпилепсию вызвать у зрителя. Другой вариант: сделать групповой портрет с подписями кто есть кто. Третий вариант: контурные рисунки как у Штирлица в «Семнадцати мгновениях весны»:
Интересная идея, но я так не умею. Сделаем три карты и будем их открывать поочередно, тогда зритель успеет рассмотреть картинки. Ну, я так думаю. И подписи добавить! Но тогда зритель точно не успеет, фокус сместится на подписи... А мы сделаем подписи на китайском, и тогда ничего никуда не сместится. Наверное. Но это не точно. В общем, сделал.
Портреты получились с первой же попытки по запросам: «китаец-отец», «мама китайская» и «китайский дядя по имени Фун-Цзу»:
Двигаемся дальше к поклаже Красной Шапочки:
«Иду я к бабуле, гостинцы несу:
Щепоточку риса, женьшень и кинзу,
Котлеты домашние и колбасу».
Необходимо нарисовать сразу пять предметов. Я пробовал, не получилось. Вернемся опять к картам и будем показывать картинки поочередно, а чтоб не тратить драгоценные попытки в Midjourney, воспользуемся сервисом Dream by WOMBO. Это бесплатно, практически без ограничений (в бесплатной версии недоступны некоторые стили и одновременно генерится не четыре картинки, а одна). Сходите, попробуйте: https://dream.ai/create .
Мне пришлось изрядно намучиться с колбасой. Это не колбаса, это сосиски какие-то (правда, реалистичные), даже показывать не стану, а когда я попросил нарисовать толстую вареную колбасу, ИИ стал предлагать такое:
У меня есть подозрение, что в английском существует какой-то близкий аналог нашему идиоматическому выражению «деловая колбаса», в котором используется упоминание мясного продукта.)
И тем не менее после нескольких десятков попыток у меня сформировался окончательный вид поклажи:
Котлеты получились не очень убедительными, а колбаски все-таки тонковаты.
Впоследствии нунчаки, топор и косу тоже рисовал в Dream by WOMBO.
Больше ничего заслуживающего внимания не происходило, просто генерация новых запросов и отбор рисунков для иллюстрации песни. Разве что с самураями: как только я просил нарисовать их непременно пьяными (Seven drunken samurai stand in a summer forest), Midjourney использовала желто-коричневые тона и часто ошибалась в количестве мужчин в кадре:
С трезвыми самураями все было в порядке и рисунки были покрасочнее.
И вот наконец результат иллюстрации песни:
В качестве небольших пасхалок в видео добавлены надписи на китайском, и это вполне осмысленный текст.
Следует пояснить, что рисунки в Midjourney создавались в четвертой версии нейросети. В настоящее время уже вовсю работает пятая версия, которая якобы умеет хорошо помнить лица персонажей, а также внимательно следит за количеством конечностей у людей, но пока доступ к ней есть лишь у владельцев платных аккаунтов.