Продолжаем использовать ИИ для производства развлекательного контента со сгенерированными персонажами. Результат в конце статьи. Предыдущий ИИ-эксперимент также можете посмотреть по адресу
Список ИИ инструментов, используемых в этом процессе:
- Chat GPT
- coqui.ai
- Leonardo AI
- Wav2Lip (через облачный Colab)
- kaiber
Шаг 1
Идея - гангстерский репчик о заказе Биг Смоука.
В Chat GPT использую prompt-запрос: "write an order of big smoke from gta san andreas as rap poems". В ответ мне генерирует большое количество куплетов о Биг Смоуке, превозносящему и раздувающему свою важность для района, но припев в целом соответствует запросу - там есть описание культового заказа в закусочной.
Шаг 2
От ИИ-сервисов, генерирующих музыку, пока что ничего вменяемого добиться не удалось. Поэтому просто взята готовая музыка с freebeats.
Шаг 3
Обучение голоса. В интернете скачан аудио-банк реплик Биг Смоука на 2 с половиной минуты. В сервисе для синтеза голоса coqui.ai можно обучить модель на своих звуках.
Затем ввести интересующий текст. И как интересная опция, для ИИ-спикера можно задать эмоциональный окрас и темп речи.
Шаг 4
Собираю трек из музыки и акапеллы вручную в Adobe Audition. Ничего интересного, механическая работа. Если знаете ИИ-сервисы, позволяющие это автоматизировать, напишите в комментах.
Шаг 5
В Leonardo AI пытаюсь добиться прикольных кадров для ролика с помощью следующих prompt-ов:
Big Smoke as hip-hop star, black very fat guy, wear hat, green clothes, GTA SA character, gangsters from ghetto narrative, 90s, style of hip-hop track cover
Big Smoke as hip-hop star, black very fat guy, wear bowler hat, green clothes, GTA SA character, eat huge chicken meal order, style of hip-hop track cover
Big Smoke as hip-hop star, aggressive, rampage, aim with pistol gun, black very fat guy, wear bowler hat, green jacket, style of hip-hop track cover
Big Smoke as hip-hop star, eat huge meal order, black very fat guy, wear bowler hat, green clothes, only face close-up, style of hip-hop track cover
Так же пробую image2image с загрузочного экрана с изображением Биг Смоука из оригинальной игры
Как отдельный шаг на этот раз уже не буду указывать, но для итогового видео некоторые картинки прогнал через сервис leiapix, чтобы сделать циклическую анимацию и вдохнуть жизнь в статическую фигуру.
Шаг 6
Разговорные фрагменты анимировал с помощью Wav2Lip. Проект OpenSource, так что можно запускать локально у себя, но я всё сделал через облачный ноут Colab.
Суть работы: выбирается изображение, выбирается аудиофайл с речью, затем детектируется лицо либо автоматически, либо вручную через параметр прописывается бокс координат. На выходе получаем mp4-видео-файл с говорящим лицом.
Шаг 7
Для разнообразия одну картинку прогнал через Kaiber. Он вообще, по-моему, больше предназначен для стилизации. Скормил ему картинку и prompt
gangster Big Smoke, in the style of hip-hop star 90s
На выходе почему-то получился какой-то ИИ-морфинг из Смоука в дымящегося Свита :)
Итоговый нагенерированный контент собрал в видеоролик в Adobe Premiere.
По традиции название для ролика также поручил сгенерировать нейросети: Big Smoke's Food Odyssey
Результат можете лицезреть в этом ролике