Найти тему
deepGTA

Генерируем с помощью ИИ ролик с персонажем из GTA San Andreas

Продолжаем использовать ИИ для производства развлекательного контента со сгенерированными персонажами. Результат в конце статьи. Предыдущий ИИ-эксперимент также можете посмотреть по адресу

Список ИИ инструментов, используемых в этом процессе:

  • Chat GPT
  • coqui.ai
  • Leonardo AI
  • Wav2Lip (через облачный Colab)
  • kaiber

Шаг 1

Идея - гангстерский репчик о заказе Биг Смоука.

В Chat GPT использую prompt-запрос: "write an order of big smoke from gta san andreas as rap poems". В ответ мне генерирует большое количество куплетов о Биг Смоуке, превозносящему и раздувающему свою важность для района, но припев в целом соответствует запросу - там есть описание культового заказа в закусочной.

Шаг 2

От ИИ-сервисов, генерирующих музыку, пока что ничего вменяемого добиться не удалось. Поэтому просто взята готовая музыка с freebeats.

Шаг 3

Обучение голоса. В интернете скачан аудио-банк реплик Биг Смоука на 2 с половиной минуты. В сервисе для синтеза голоса coqui.ai можно обучить модель на своих звуках.

Затем ввести интересующий текст. И как интересная опция, для ИИ-спикера можно задать эмоциональный окрас и темп речи.

Шаг 4

Собираю трек из музыки и акапеллы вручную в Adobe Audition. Ничего интересного, механическая работа. Если знаете ИИ-сервисы, позволяющие это автоматизировать, напишите в комментах.

-2

Шаг 5

В Leonardo AI пытаюсь добиться прикольных кадров для ролика с помощью следующих prompt-ов:

Big Smoke as hip-hop star, black very fat guy, wear hat, green clothes, GTA SA character, gangsters from ghetto narrative, 90s, style of hip-hop track cover

Big Smoke as hip-hop star, black very fat guy, wear bowler hat, green clothes, GTA SA character, eat huge chicken meal order, style of hip-hop track cover

Big Smoke as hip-hop star, aggressive, rampage, aim with pistol gun, black very fat guy, wear bowler hat, green jacket, style of hip-hop track cover

Big Smoke as hip-hop star, eat huge meal order, black very fat guy, wear bowler hat, green clothes, only face close-up, style of hip-hop track cover

Так же пробую image2image с загрузочного экрана с изображением Биг Смоука из оригинальной игры

Все связанные результаты из Leonardo AI
Все связанные результаты из Leonardo AI

Как отдельный шаг на этот раз уже не буду указывать, но для итогового видео некоторые картинки прогнал через сервис leiapix, чтобы сделать циклическую анимацию и вдохнуть жизнь в статическую фигуру.

Шаг 6

Разговорные фрагменты анимировал с помощью Wav2Lip. Проект OpenSource, так что можно запускать локально у себя, но я всё сделал через облачный ноут Colab.

Суть работы: выбирается изображение, выбирается аудиофайл с речью, затем детектируется лицо либо автоматически, либо вручную через параметр прописывается бокс координат. На выходе получаем mp4-видео-файл с говорящим лицом.

Шаг 7

Для разнообразия одну картинку прогнал через Kaiber. Он вообще, по-моему, больше предназначен для стилизации. Скормил ему картинку и prompt

gangster Big Smoke, in the style of hip-hop star 90s

На выходе почему-то получился какой-то ИИ-морфинг из Смоука в дымящегося Свита :)

Между Биг Смоуком и Свитом Шоном 1 prompt
Между Биг Смоуком и Свитом Шоном 1 prompt

Итоговый нагенерированный контент собрал в видеоролик в Adobe Premiere.

По традиции название для ролика также поручил сгенерировать нейросети: Big Smoke's Food Odyssey

Результат можете лицезреть в этом ролике