Как создать музыкальный клип в нейросетях БЕСПЛАТНО: ИИ-трек в SUNO, видео в VEO 3.1 и сценарий по одной фразе «В чём проблема?»

6 мая6 мая

6 мин

🔗Смотреть клип После предыдущего эксперимента с рекламным роликом Ford Mustang мне захотелось пойти дальше и проверить, возможно ли с помощью современных нейросетей сгенерировать полноценный музыкальный клип. Именно так и появилось это видео, в котором молодая пара переживает кризис в отношениях. Двое в одной квартире — кухня, прихожая, спальня. Отчуждение, недопонимание и тот самый невысказанный вопрос: «кто из нас уйдёт первым?» На весь клип ушло 5 вечеров и 0(!!!) рублей. И это всё без актёров, камеры, локаций и команды. Только нейросети и пара бесплатных сервисов. И самое забавное — с чего вообще началась эта история. Изначально я хотел протестировать в сервисе SYNTX возможности генерации аудиотрека с помощью нейросети SUNO 4.5. Закидываю запрос — «нейросеть недоступна». Закидываю снова — то же самое. И ещё раз. И ещё... (( И в голову (почему-то) мне не пришло, что просто SYNTX периодически обновляет свой функционал и по этой причине временно находится вне доступа — это нормально.

Оглавление

🔵Сценарий для клипа или курьёз, с которого всё началось...
🔵Что в итоге получилось
🔵Какие нейросети я использовал (и почему всё бесплатно)

🔗Смотреть клип

После предыдущего эксперимента с рекламным роликом Ford Mustang мне захотелось пойти дальше и проверить, возможно ли с помощью современных нейросетей сгенерировать полноценный музыкальный клип.

Именно так и появилось это видео, в котором молодая пара переживает кризис в отношениях. Двое в одной квартире — кухня, прихожая, спальня. Отчуждение, недопонимание и тот самый невысказанный вопрос: «кто из нас уйдёт первым?»

На весь клип ушло 5 вечеров и 0(!!!) рублей. И это всё без актёров, камеры, локаций и команды. Только нейросети и пара бесплатных сервисов. И самое забавное — с чего вообще началась эта история.

🔵Сценарий для клипа или курьёз, с которого всё началось...

Изначально я хотел протестировать в сервисе SYNTX возможности генерации аудиотрека с помощью нейросети SUNO 4.5. Закидываю запрос — «нейросеть недоступна». Закидываю снова — то же самое. И ещё раз. И ещё... ((

И в голову (почему-то) мне не пришло, что просто SYNTX периодически обновляет свой функционал и по этой причине временно находится вне доступа — это нормально.

А я уже на грани. И вместо того чтобы спокойно подождать, пишу в диалоговое окно (реально с чувством, будто бы на том конце живой человек, который надо мной издевается): «В ЧЁМ ПРОБЛЕМА?»

И ухожу пить чай. Возвращаюсь — а меня ждёт готовый сгенерированный трек. Включаю его… и понимаю, что это и есть мой клип. Лирическая, мелодраматическая история о паре на грани разрыва. Слова, мелодия, настроение — всё сложилось.

Меня с первых секунд зацепила мелодия и сама атмосфера. Да и чего бОльшего ожидать от нейронки, сгенерировавшей вполне себе сносную песню по одной лишь фразе :)

Так, нейросеть, которая «тупила», подарила мне и саму песню, и сюжет, и идею всего музыкального клипа.

А дальше началась работа.

🔵Что в итоге получилось

Жанр: лирический, мелодраматический ИИ-клип
Сюжет: пара переживает кризис в отношениях. Отчуждение, недопонимание, мысли о расставании — и немой вопрос «кто первым сделает шаг?»
Локации: кухня, прихожая, спальня (одна квартира — три состояния отношений)
Сроки: 5 вечеров
Бюджет: 0 ₽ (хотя ладно..., скажу честно, что на генерацию аудиотрека в SUNO у меня ушло 3 токена — это примерно 6 рублей)
Кадров (и видеофрагментов, соответственно): 28 основных ключевых кадров + 5 дополнительных

🔵Какие нейросети я использовал (и почему всё бесплатно)

Весь клип я собрал на связке всего из двух сервисов:

1. SYNTX — агрегатор нейросетей. Здесь я бесплатно использовал:
➖Claude 4.6 Sonnet — для составления качественных промптов ко всем остальным нейросетям
➖SUNO 4.5 — для генерации самого аудиотрека (с вокалом и словами)

2. FLOW — здесь бесплатно генерировал:
➖в Nano Banana 2 — все изображения (персонажи, локации, ключевые кадры)
➖в VEO 3.1 Fast — "оживление" ключевых кадров в видеофрагменты

🔵Этапы создания музыкального ИИ-клипа

➖ЭТАП 1. Генерация ИИ-музыки в нейросети SUNO 4.5 и разработка сценария

Как появился трек — я рассказал. Что хочу добавить: в отличие от обычного ролика, в музыкальном клипе сначала появляется песня, а уже под неё — генерируется визуал.

Сразу честно про текст песни. Если внимательно вслушаться — да, у трека есть свои косяки: где-то рифма «провисает», где-то словарный запас можно было бы покрепче, где-то фраза звучит немного «не по-русски». Это вообще типичная история для нейросетевой ИИ-музыки на текущем уровне развития SUNO.

Но в целом — нормально. Песня цепляет, настроение передано, эмоция считывается, и под неё реально хочется делать клип. А мелкие шероховатости легко правятся: либо переписать строчку вручную, либо перегенерировать конкретный фрагмент в SUNO. Я сознательно оставил «как есть» — чтобы показать честный результат «из коробки», без ручной полировки.

Именно этот текст я закинул в свой любимый Claude и получил покадровый сценарий: не очень сложный, но со смыслом.

➖Этап 2. Карта персонажа 1 (девушка) в Nano Banana 2

Через Claude 4.6 Sonnet составил ПРОМПТЫ (учитывающие внешность, возраст, одежду, типаж), затем сгенерировал персонажа в нейросети Nano Banana 2 в разных ракурсах и эмоциональных состояниях:

➖Этап 3. Карта персонажа 2 (парень) в Nano Banana 2

Та же связка: Claude 4.6 Sonnet → Nano Banana 2. Главное на этом этапе — добиться, чтобы персонаж сохранял внешность во всех кадрах (одно лицо, одна причёска, одна одежда) настолько, насколько позволяют это делать современные нейросетевые технологии:

➖Этап 4. Карта локаций для ИИ-клипа (Nano Banana 2)

Кухня, прихожая, спальня — каждую локацию проработал отдельно: разные ракурсы, освещение, детали интерьера. Важно, чтобы все три комнаты выглядели как одна квартира в едином визуальном стиле:

➖Этап 5. Ключевые кадры (keyframes) для музыкального клипа

Только когда персонажи и локации готовы, я начал «сводить» их в финальные сцены — это и есть ключевые кадры (keyframes), на основе которых дальше будет строиться видео. Получилось 28 основных кадров и 5 дополнительных (сделал уже позже, когда делал финальный видеомонтаж):

➖Этап 6. Генерация ИИ-видео в нейросети VEO 3.1 Fast

Каждый ключевой кадр превращается в короткий видеофрагмент в соответствии со сценарием. Здесь снова требовалась нейросеть Claude 4.6 Sonnet для написания промптов с описанием движения камеры, персонажей, их мимики, других эффектов и общей динамики сцены. Несмотря на то, что актуально сейчас на рынке присутствует достаточно много нейросетей, которые могут генерить видеоконтент лучше (и дороже!), нейросеть VEO 3.1 Fast вполне неплохо справляется с подобными задачами.

➖Этап 7. Финальный монтаж клипа в CapCut

Здесь всё достаточно стандартно: порядок сцен, ритм, синхронизация с музыкой, эффекты, переходы. Именно монтаж превращает набор красивых кадров в цельный музыкальный клип с эмоцией. Иногда получается так, что из 8 секундного видеофрагмента берётся всего лишь 1- или 2-секундрый кадр.

🔵Главное, что я понял за эти 5 вечеров

80% времени уходит не на генерацию, а на отбор изображений (ключевых кадров). Делаешь десятки вариантов одной сцены, чтобы выбрать тот единственный кадр, в котором есть жизнь, эмоция, нужный взгляд героев, соответствие предметов, одежды, освещения, окружения и т.п.

Кнопки «сделать красиво с первого раза» в нейросетях пока нет. Но при правильном подходе и хороших промптах нужный кадр всегда появляется — это вопрос терпения и насмотренности.

🔵Выводы: можно ли сделать музыкальный клип в нейросетях бесплатно

Нейросети уже умеют делать драму. Не идеально, но достаточно, чтобы зритель сопереживал героям, которых на самом деле никогда не существовало
Бюджет 0 ₽ — это реально. Если знать, какими сервисами пользоваться и как обходить ограничения доступа к ним — можно сделать клип, под который ещё пару лет назад нанимали бы команду из 15–20 человек
ИИ-музыка пока не идеальна. В текстах SUNO встречаются слабые рифмы и неловкие формулировки. Но даже в текущем виде это уже рабочий инструмент
Главный навык — думать как режиссёр. Видеть кадр, чувствовать ритм, выбирать выражение лица героя. Нейросеть — это инструмент. Идея и вкус — всё ещё за человеком
Это доступно каждому. Без профильного образования, без техники, без бюджета. Нужны только желание, насмотренность и немного терпения

💡В общем: иногда полезно спросить у нейросети «В чём проблема?», потому что никогда не знаешь, какой результат может получиться на основе её ответа...

💬 Для связи