После предыдущего эксперимента с рекламным роликом Ford Mustang мне захотелось пойти дальше и проверить, возможно ли с помощью современных нейросетей сгенерировать полноценный музыкальный клип.
Именно так и появилось это видео, в котором молодая пара переживает кризис в отношениях. Двое в одной квартире — кухня, прихожая, спальня. Отчуждение, недопонимание и тот самый невысказанный вопрос: «кто из нас уйдёт первым?»
На весь клип ушло 5 вечеров и 0(!!!) рублей. И это всё без актёров, камеры, локаций и команды. Только нейросети и пара бесплатных сервисов. И самое забавное — с чего вообще началась эта история.
🔵Сценарий для клипа или курьёз, с которого всё началось...
Изначально я хотел протестировать в сервисе SYNTX возможности генерации аудиотрека с помощью нейросети SUNO 4.5. Закидываю запрос — «нейросеть недоступна». Закидываю снова — то же самое. И ещё раз. И ещё... ((
И в голову (почему-то) мне не пришло, что просто SYNTX периодически обновляет свой функционал и по этой причине временно находится вне доступа — это нормально.
А я уже на грани. И вместо того чтобы спокойно подождать, пишу в диалоговое окно (реально с чувством, будто бы на том конце живой человек, который надо мной издевается): «В ЧЁМ ПРОБЛЕМА?»
И ухожу пить чай. Возвращаюсь — а меня ждёт готовый сгенерированный трек. Включаю его… и понимаю, что это и есть мой клип. Лирическая, мелодраматическая история о паре на грани разрыва. Слова, мелодия, настроение — всё сложилось.
Меня с первых секунд зацепила мелодия и сама атмосфера. Да и чего бОльшего ожидать от нейронки, сгенерировавшей вполне себе сносную песню по одной лишь фразе :)
Так, нейросеть, которая «тупила», подарила мне и саму песню, и сюжет, и идею всего музыкального клипа.
А дальше началась работа.
🔵Что в итоге получилось
- Жанр: лирический, мелодраматический ИИ-клип
- Сюжет: пара переживает кризис в отношениях. Отчуждение, недопонимание, мысли о расставании — и немой вопрос «кто первым сделает шаг?»
- Локации: кухня, прихожая, спальня (одна квартира — три состояния отношений)
- Сроки: 5 вечеров
- Бюджет: 0 ₽ (хотя ладно..., скажу честно, что на генерацию аудиотрека в SUNO у меня ушло 3 токена — это примерно 6 рублей)
- Кадров (и видеофрагментов, соответственно): 28 основных ключевых кадров + 5 дополнительных
🔵Какие нейросети я использовал (и почему всё бесплатно)
Весь клип я собрал на связке всего из двух сервисов:
1. SYNTX — агрегатор нейросетей. Здесь я бесплатно использовал:
➖Claude 4.6 Sonnet — для составления качественных промптов ко всем остальным нейросетям
➖SUNO 4.5 — для генерации самого аудиотрека (с вокалом и словами)
2. FLOW — здесь бесплатно генерировал:
➖в Nano Banana 2 — все изображения (персонажи, локации, ключевые кадры)
➖в VEO 3.1 Fast — "оживление" ключевых кадров в видеофрагменты
🔵Этапы создания музыкального ИИ-клипа
➖ЭТАП 1. Генерация ИИ-музыки в нейросети SUNO 4.5 и разработка сценария
Как появился трек — я рассказал. Что хочу добавить: в отличие от обычного ролика, в музыкальном клипе сначала появляется песня, а уже под неё — генерируется визуал.
Сразу честно про текст песни. Если внимательно вслушаться — да, у трека есть свои косяки: где-то рифма «провисает», где-то словарный запас можно было бы покрепче, где-то фраза звучит немного «не по-русски». Это вообще типичная история для нейросетевой ИИ-музыки на текущем уровне развития SUNO.
Но в целом — нормально. Песня цепляет, настроение передано, эмоция считывается, и под неё реально хочется делать клип. А мелкие шероховатости легко правятся: либо переписать строчку вручную, либо перегенерировать конкретный фрагмент в SUNO. Я сознательно оставил «как есть» — чтобы показать честный результат «из коробки», без ручной полировки.
Именно этот текст я закинул в свой любимый Claude и получил покадровый сценарий: не очень сложный, но со смыслом.
➖Этап 2. Карта персонажа 1 (девушка) в Nano Banana 2
Через Claude 4.6 Sonnet составил ПРОМПТЫ (учитывающие внешность, возраст, одежду, типаж), затем сгенерировал персонажа в нейросети Nano Banana 2 в разных ракурсах и эмоциональных состояниях:
➖Этап 3. Карта персонажа 2 (парень) в Nano Banana 2
Та же связка: Claude 4.6 Sonnet → Nano Banana 2. Главное на этом этапе — добиться, чтобы персонаж сохранял внешность во всех кадрах (одно лицо, одна причёска, одна одежда) настолько, насколько позволяют это делать современные нейросетевые технологии:
➖Этап 4. Карта локаций для ИИ-клипа (Nano Banana 2)
Кухня, прихожая, спальня — каждую локацию проработал отдельно: разные ракурсы, освещение, детали интерьера. Важно, чтобы все три комнаты выглядели как одна квартира в едином визуальном стиле:
➖Этап 5. Ключевые кадры (keyframes) для музыкального клипа
Только когда персонажи и локации готовы, я начал «сводить» их в финальные сцены — это и есть ключевые кадры (keyframes), на основе которых дальше будет строиться видео. Получилось 28 основных кадров и 5 дополнительных (сделал уже позже, когда делал финальный видеомонтаж):
➖Этап 6. Генерация ИИ-видео в нейросети VEO 3.1 Fast
Каждый ключевой кадр превращается в короткий видеофрагмент в соответствии со сценарием. Здесь снова требовалась нейросеть Claude 4.6 Sonnet для написания промптов с описанием движения камеры, персонажей, их мимики, других эффектов и общей динамики сцены. Несмотря на то, что актуально сейчас на рынке присутствует достаточно много нейросетей, которые могут генерить видеоконтент лучше (и дороже!), нейросеть VEO 3.1 Fast вполне неплохо справляется с подобными задачами.
➖Этап 7. Финальный монтаж клипа в CapCut
Здесь всё достаточно стандартно: порядок сцен, ритм, синхронизация с музыкой, эффекты, переходы. Именно монтаж превращает набор красивых кадров в цельный музыкальный клип с эмоцией. Иногда получается так, что из 8 секундного видеофрагмента берётся всего лишь 1- или 2-секундрый кадр.
🔵Главное, что я понял за эти 5 вечеров
80% времени уходит не на генерацию, а на отбор изображений (ключевых кадров). Делаешь десятки вариантов одной сцены, чтобы выбрать тот единственный кадр, в котором есть жизнь, эмоция, нужный взгляд героев, соответствие предметов, одежды, освещения, окружения и т.п.
Кнопки «сделать красиво с первого раза» в нейросетях пока нет. Но при правильном подходе и хороших промптах нужный кадр всегда появляется — это вопрос терпения и насмотренности.
🔵Выводы: можно ли сделать музыкальный клип в нейросетях бесплатно
- Нейросети уже умеют делать драму. Не идеально, но достаточно, чтобы зритель сопереживал героям, которых на самом деле никогда не существовало
- Бюджет 0 ₽ — это реально. Если знать, какими сервисами пользоваться и как обходить ограничения доступа к ним — можно сделать клип, под который ещё пару лет назад нанимали бы команду из 15–20 человек
- ИИ-музыка пока не идеальна. В текстах SUNO встречаются слабые рифмы и неловкие формулировки. Но даже в текущем виде это уже рабочий инструмент
- Главный навык — думать как режиссёр. Видеть кадр, чувствовать ритм, выбирать выражение лица героя. Нейросеть — это инструмент. Идея и вкус — всё ещё за человеком
- Это доступно каждому. Без профильного образования, без техники, без бюджета. Нужны только желание, насмотренность и немного терпения
💡В общем: иногда полезно спросить у нейросети «В чём проблема?», потому что никогда не знаешь, какой результат может получиться на основе её ответа...