2 подписчика

Генерируем с помощью ИИ ролик с персонажем из GTA San Andreas

17 мая 202317 мая 2023

2 мин

Продолжаем использовать ИИ для производства развлекательного контента со сгенерированными персонажами. Результат в конце статьи. Предыдущий ИИ-эксперимент также можете посмотреть по адресу Список ИИ инструментов, используемых в этом процессе: Шаг 1 Идея - гангстерский репчик о заказе Биг Смоука. В Chat GPT использую prompt-запрос: "write an order of big smoke from gta san andreas as rap poems". В ответ мне генерирует большое количество куплетов о Биг Смоуке, превозносящему и раздувающему свою важность для района, но припев в целом соответствует запросу - там есть описание культового заказа в закусочной. Шаг 2 От ИИ-сервисов, генерирующих музыку, пока что ничего вменяемого добиться не удалось. Поэтому просто взята готовая музыка с freebeats. Шаг 3 Обучение голоса. В интернете скачан аудио-банк реплик Биг Смоука на 2 с половиной минуты. В сервисе для синтеза голоса coqui.ai можно обучить модель на своих звуках. Затем ввести интересующий текст. И как интересная опция, для ИИ-спикера можно

Список ИИ инструментов, используемых в этом процессе:

Chat GPT
coqui.ai
Leonardo AI
Wav2Lip (через облачный Colab)
kaiber

Шаг 1

Идея - гангстерский репчик о заказе Биг Смоука.

В Chat GPT использую prompt-запрос: "write an order of big smoke from gta san andreas as rap poems". В ответ мне генерирует большое количество куплетов о Биг Смоуке, превозносящему и раздувающему свою важность для района, но припев в целом соответствует запросу - там есть описание культового заказа в закусочной.

Шаг 2

От ИИ-сервисов, генерирующих музыку, пока что ничего вменяемого добиться не удалось. Поэтому просто взята готовая музыка с freebeats.

Шаг 3

Обучение голоса. В интернете скачан аудио-банк реплик Биг Смоука на 2 с половиной минуты. В сервисе для синтеза голоса coqui.ai можно обучить модель на своих звуках.

Затем ввести интересующий текст. И как интересная опция, для ИИ-спикера можно задать эмоциональный окрас и темп речи.

Шаг 4

Собираю трек из музыки и акапеллы вручную в Adobe Audition. Ничего интересного, механическая работа. Если знаете ИИ-сервисы, позволяющие это автоматизировать, напишите в комментах.

Шаг 5

В Leonardo AI пытаюсь добиться прикольных кадров для ролика с помощью следующих prompt-ов:

Big Smoke as hip-hop star, black very fat guy, wear hat, green clothes, GTA SA character, gangsters from ghetto narrative, 90s, style of hip-hop track cover

Big Smoke as hip-hop star, black very fat guy, wear bowler hat, green clothes, GTA SA character, eat huge chicken meal order, style of hip-hop track cover

Big Smoke as hip-hop star, aggressive, rampage, aim with pistol gun, black very fat guy, wear bowler hat, green jacket, style of hip-hop track cover

Big Smoke as hip-hop star, eat huge meal order, black very fat guy, wear bowler hat, green clothes, only face close-up, style of hip-hop track cover

Так же пробую image2image с загрузочного экрана с изображением Биг Смоука из оригинальной игры

Как отдельный шаг на этот раз уже не буду указывать, но для итогового видео некоторые картинки прогнал через сервис leiapix, чтобы сделать циклическую анимацию и вдохнуть жизнь в статическую фигуру.

Шаг 6

Разговорные фрагменты анимировал с помощью Wav2Lip. Проект OpenSource, так что можно запускать локально у себя, но я всё сделал через облачный ноут Colab.

Суть работы: выбирается изображение, выбирается аудиофайл с речью, затем детектируется лицо либо автоматически, либо вручную через параметр прописывается бокс координат. На выходе получаем mp4-видео-файл с говорящим лицом.

Шаг 7

Для разнообразия одну картинку прогнал через Kaiber. Он вообще, по-моему, больше предназначен для стилизации. Скормил ему картинку и prompt

gangster Big Smoke, in the style of hip-hop star 90s

На выходе почему-то получился какой-то ИИ-морфинг из Смоука в дымящегося Свита :)

Итоговый нагенерированный контент собрал в видеоролик в Adobe Premiere.

По традиции название для ролика также поручил сгенерировать нейросети: Big Smoke's Food Odyssey

Результат можете лицезреть в этом ролике