Найти тему
НейроВед

Как создать видеоклип с помощью нейросетей: история клипа «Остров»

Оглавление

Привет! Сегодня решили поделиться своим опытом в создании клипа к песне группы МЫ «Остров». Если ещё не видели, советуем посмотреть.

На стадии зарождения YouTube-канала мы пробовали разные стили: шуточные, интерактивные, познавательные, наконец пришли к музыкальным. Выпускали шортсы, где просили нейросеть изобразить строчки из песен. Получалось в основном смешно, аудитории зашло, стали продолжать, а потом это выросло в тренд. Например, визуализация песни «Дымок» Ицыка Цыпера залетела на 10 млн. «Остров» группы МЫ набрал почти 5 млн и вызвал отклик подписчиков. Решили попробовать что-то серьёзное и с помощью связки Midjorney+Runway заанимировали «Куклу колдуна», но громких успехов шортс не достиг. Нос вешать не стали: сделали выводы, выбрали более популярную песню и пошли делать масштабную и кропотливую работу — полноценный клип.

-2

Создание изображения

В первую очередь важна визуализация: нужно знать, что хочешь, чтобы составить точный запрос. Это как с ТЗ — чем лучше составишь, тем меньше править. Мы закрыли глаза и послушали песню, постарались понять, какие образы она навевает, какую атмосферу передаёт. Собрали всё в кучу и занялись промптами для Midjorney. Главное в этом деле помнить о правилах:

Избегайте отрицаний. Слова «не», «исключая», «без», «кроме» - сразу мимо. Нейронка воспримет всё буквально и по запросу «кот без усов» пририсует усы даже в непотребных местах.

Реальные объекты. Многие пытаются сгенерить популярную личность или использовать в промпте известный объект, но толкового ничего не получают. Искусственный интеллект не возьмёт за основу Эйфелеву башню, а создаст заново так, как сама её видит.

Конкретика. Опишите то, что представили во время визуализации: расположение объектов и детализацию. Но сильно не распаляйтесь — количество символов ограничено, большое количество мелких деталей перегрузит систему.

Нам было важно передать действия персонажей по тексту песни: «тонет», «укрывает», «кровоточат». Песня трудна большим количеством метафор, ну не писать же в промпте строчку «издевается песок». Даже интересно стало, что бы нейронка на это выдала.

Не забывайте, что в Midjorney обширный выбор инструментов, можно настроить цветовую гамму, отдаление/приближение камеры к объекту, стилистику и т.д.

Мы учли все нюансы и перешли к промпту. Сначала создали костяк:

DVD Screengrab, natural lighting, realistic, detailed, medium shot, telephoto lens, go pro, dutch angle, noise --v 6

Эта часть запроса вообще не менялась от генерации к генерации, только настройки камеры. Благодаря ей все кадры получились в едином стиле, цвете и качестве. Добавили конкретный запрос, настроили приближение камеры:

guy lies on the sand DVD Screengrab, natural lighting, realistic, detailed, medium shot, telephoto lens, go pro, dutch angle, noise --v 6 ar 16:9

Результат:

-3

Каждую строчку песни пришлось разбить пополам, чтобы не было долгих кадров. Слова перефразировали, чтобы составить промпт:

«Ну кто же знал, не утонув» - Молодой парень барахтается в реке, плывя к острову.

«твоих волос густые волны» - Девушка лежит на коленях у брюнета. Он гладит ее волнистые волосы; они сидят на берегу моря у пальмы.

Сложно было сохранять примерно один и тот же вид мужчины и женщины, нейронка не запоминала их. Как назло, сразу после выхода клипа Midjorney обновилась и обзавелась такой функцией.

-4

Анимация изображения

Анимацией занимался Runway. У нейросети широкий спектр инструментов: автоматические субтитры, генерация текста в видео, преобразование картинки, удаление объектов, размытие лиц, цветокоррекция, датчик движения объектов и т.д. Изображение полностью преображается не теряя качества.

Большой плюс - нет ограничений для пользователей из России, не понадобятся обходные пути. Для нас важным инструментом был Slow motion, который регулирует скорость анимации. Песня медленная, быстрые движения не подойдут. Кнопкой Effect Control регулировали эффект анимации.

После регистрации доступен бесплатный период - 3 проекта до 25 ГБ, 25 бесплатных генераций изображений. На большой клип его не хватит. Но мы схитрили и просто создавали новые аккаунты с бесплатными генерацаями. Спойлер: понадобилось очень много почт.

Тариф "Pro" не имеет ограничений на количество проектов, максимальный объем генераций - 500 ГБ в месяц. Это 125 бесплатных генераций изображений, расширенный набор инструментов и экспорт в 4К. $28 в месяц.

-5

Применить эффекты можно текстовым запросом или кистью. Мы мешали всё подряд, а иногда и вовсе запускали генерацию без дополнительных манипуляций — результат непредсказуем, но в некоторых случаях получалось очень даже ничего.

Монтаж

Нужно не просто сшить готовые кадры, но и подогнать их по времени к друг другу. Несколько раз в процессе монтажа пришлось переделывать генерации, чтобы переходы стали плавнее, сохранялось ощущение настоящей съемки. Титры сделали вручную в CapCut, когда сам ролик был готов:

-6

Дальнейшие планы

Работа была кропотливой и тяжёлой, но того стоила. Главная цель - создать клип на песню, которая тоже будет сгенерирована в нейросетях. Изучаем возможности Suno, ИИ улучшили, добавив бесплатно генерацию треков до 2 минут.

-7

Базовый план позволяет каждый день генерить примерно 10 песен и запускать 2 задания одновременно. Если в столе завалялись старые стихи - бегом делать из них песню. Нейронка сама может сгенерировать текст по желанию.

Ещё с нетерпением ждем появления Sora. Детище OpenAI позволит в пару кликов генерировать видосы. ИИ способен создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона. Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире. Разработчики признаются: пока у нейронки есть слабые места. Например, человек на видео откусывает печенье, но после этого на печенье не остается следа от укуса. Модель иногда путает лево и право. Поэтому Sora на стадии доработки и тестов, дропнуть обещают через несколько месяцев.

-8

200 генераций в Midjorney, 6 бесплатных аккаунтов в Runway и нервный тик у контентщика — итоги работы над клипом. Методом проб и ошибок вывели для себя инструкцию, пришло понимание, как лучше и проще. Продолжим анимацию песен, пишите в комментарии, что сами хотели бы увидеть.