521 подписчик

Как написать хит, не выходя из дома.

5 января 20255 янв 2025

2 мин

Записано со слов Alex-а, звукорежиссера одной из студий звукозаписи. Нейросети рулят. Но при всем при этом, насколько я понимаю, мощных качественных движков не так много. Соответственно и результаты при всем кажущемся разнообразии достаточно однотипны. Возьмем движки, генерирующие музыкальный контент. Да, здорово, но если работать с ними постоянно, то начинаешь замечать одни и те же паттерны. Однако выход есть. Вот один из возможных алгоритмов. Начнем с текста. Текст, а вернее стихи, во всяком случае на русском языке, нейросети генерят отвратительно. Или мне не попадалось. Далее готовим промпт. Например, я хочу, чтобы это был женский вокал, а аккомпанементом выступало пианино. Стандартный минималистичный промпт будет выглядит так: female voice, piano. Далее указываем нейросети текст и пишем, что это за часть песни. Стандарт здесь следующий: · [Verse] – куплет · [Chorus] – припев · [Bridge] – бридж (так называемая часть «С») Некоторые сервисы понимают и дополнительные команды, например

Записано со слов Alex-а, звукорежиссера одной из студий звукозаписи.

Нейросети рулят. Но при всем при этом, насколько я понимаю, мощных качественных движков не так много. Соответственно и результаты при всем кажущемся разнообразии достаточно однотипны.

Возьмем движки, генерирующие музыкальный контент. Да, здорово, но если работать с ними постоянно, то начинаешь замечать одни и те же паттерны. Однако выход есть. Вот один из возможных алгоритмов.

Начнем с текста. Текст, а вернее стихи, во всяком случае на русском языке, нейросети генерят отвратительно. Или мне не попадалось.

Далее готовим промпт. Например, я хочу, чтобы это был женский вокал, а аккомпанементом выступало пианино. Стандартный минималистичный промпт будет выглядит так: female voice, piano.

Далее указываем нейросети текст и пишем, что это за часть песни. Стандарт здесь следующий:

· [Verse] – куплет

· [Chorus] – припев

· [Bridge] – бридж (так называемая часть «С»)

Некоторые сервисы понимают и дополнительные команды, например:

· [Solo] - соло

· [Intro] - вступление

· [End] – конец

Загружаем данные в соответствующие поля и запускаем генерацию. Иногда более-менее нужный результат получается чуть ли не с первого раза, иногда надо уточнить промпт, добавить дополнительные параметры. Например, указав: нежно (gently), душевно (soul) и т.п. Не забываем указать музыкальный стиль Pop, Rock, R&B. Можно через запятую указать сразу несколько стилей. Определенные нейросети умеют делать миксы.

Итак, на выходе у меня стерео-трек. Кстати говоря, некоторые сервисы позволяют получить еще и минус созданной композиции. Это уже минимальный результат, но мне такой не нужен.

Соответственно, я указываю нейросети, чтобы она сохранила мне результат не в общепринятом mp3, а в формате wav (более высокое качество).

Идем в гости к следующей нейросетке. Здесь мы рассплитим стерео-трек на составляющие.

· Вокал

· Ударные

· Бас

· Остальное

Нейросеть - из стереотрека в отдельные аудиоорожки инструментов

Поскольку мне нужен индивидуальный результат и песня предназначается для конкретного человека, у меня есть два пути.

· Первый – пригласить его в студию, где он перепоет вокал своим голосом

· Второй – в банке голосов выбрать похожий и изменить тембр исходника

· Есть третий путь. Поскольку у меня в наличии уже имеется образец тембра заказчика, я могу переработать вокал, имеющийся в наличии в индивидуальный вокал конкретного человека. Признаться выходит по-разному. Иногда очень хорошо, иногда не очень.

Дальше в аудиоредакторе открываем дорожки, нарезаем в нужном порядке припевы и куплеты, микшируем треки, по необходимости можем дописать партии, наложить эффекты и т.п.

Понятно, что профессиональный саундтрек, который можно было бы отнести на радио или ТВ таким образом не сделать. Необходимого качества не получится. А вот для интернет-среды в самый раз.

Поскольку человек существо, которое лучше всего воспринимает информацию визуально, идем уже в видеоредактор. На наше счастье, психика человека плохо воспринимает длинные статичные сцены. Это позволяет нам «слепить» визуальный ряд из кусочков. Как правило, это стоковые видео по нужной теме и несколько индивидуальных досъёмов. Загружаем наш аудиофайл, загружаем видео, монтируем. Но это уже не ко мне, я работаю со звуком.

Повторюсь. Здесь описан алгоритм, который позволяет создать продукт, назовем его «демка» практически за пару часов. Если нужен продукт профессионального качества, времени потребуется больше, какие-то пойнты будут убраны, какие-то добавлены, что-то сделается по-другому, но основная канва останется той же.

Один из примеров