Найти в Дзене
А вот дудки вам!

Исправляем в нейросети Riffusion треки из Suno с полным сохранением стиля

Несколько необычная тема, но, может, пригодится кому-то. Многие из нас создают различные музыкальные композиции, вокальные и инструментальные, в нейросети Suno, это, наверное, самый популярный сервис для таких задач. У Suno интуитивно понятный интерфейс, она пока что бесплатна, каждый день предоставляет 50 кредитов для генерации 10 треков, но я не буду подробно описывать эту сетку: гайдов полно, кому надо - уже все всё знают. Я о другом: в Suno (особенно если это не платная версия v4, а обычная v3,5) бывает много шума в созданных треках. В музыке академического стиля это практически не встречается, а вот в различных популярных жанрах типа поп, рок, рэп и т.п. - постоянно. Очень шумят ударные, слишком много эха, и ещё электронные "певцы" часто плохо выговаривают слова, особенно русские.
Послушать такое ещё можно, а вот если надо с таким треком как-то работать (разделять треки на стемы или делать каверы с голосовыми моделями) - то возникают серьёзные проблемы: при разделении партий они

Несколько необычная тема, но, может, пригодится кому-то.

Многие из нас создают различные музыкальные композиции, вокальные и инструментальные, в нейросети Suno, это, наверное, самый популярный сервис для таких задач.

Интерфейс  Suno
Интерфейс Suno

У Suno интуитивно понятный интерфейс, она пока что бесплатна, каждый день предоставляет 50 кредитов для генерации 10 треков, но я не буду подробно описывать эту сетку: гайдов полно, кому надо - уже все всё знают.

Я о другом: в Suno (особенно если это не платная версия v4, а обычная v3,5) бывает много шума в созданных треках. В музыке академического стиля это практически не встречается, а вот в различных популярных жанрах типа поп, рок, рэп и т.п. - постоянно. Очень шумят ударные, слишком много эха, и ещё электронные "певцы" часто плохо выговаривают слова, особенно русские.
Послушать такое ещё можно, а вот если надо с таким треком как-то работать (разделять треки на стемы или делать каверы с голосовыми моделями) - то возникают серьёзные проблемы: при разделении партий они все много теряют в акустическом отношении, вокал невнятен и шумит, инструментал беден, ему не хватает каких-то частот, а то и вовсе звуки пропадают, заменяясь шипением и треском.
Это не всегда случается, бывают вполне удачные треки, но чаще - очень грязные.
Кроме того, почти все песни ещё довольно однообразны по композиции: вначале "певец" тихо, на низких нотах (и часто нечленораздельно) поёт первый куплет, аккомпанемент в этот момент скудный, еле слышный, инструментов мало, чаще один какой-то, потом непременно включаются ударные (без них крайне сложно сгенерировать любую песню), нарастает громкость (и шум), иногда и темп ускоряется, голос "певца" изрядно повышается, выходит на самые высокие ноты, стиль же песни поменять невозможно, даже с помощью функции Extend. Возможно, в платной версии всего этого нет, а есть много всяческих приятностей (мне, например, очень понравилась пробная v4, но дали только облизнуться на неё, а потом - плати, и рада бы, но нечем и никак), но в v3,5 - такие вот пироги.
Я сейчас делаю на заказ каверы, с помощью созданной мною голосовой модели, на песенные треки, сгенерированные в Suno, и столкнулась с этими её неприятными особенностями.

Год назад примерно я открыла для себя нейросеть Riffusion, которая делает то же самое, что Suno, но гораздо интереснее и качественнее, я тогда (год назад) особо не углублялась в неё, сделала пару песенок про кошек (она ещё и стихи сочиняет, и если на английском - то даже с рифмами и ритмом, и очень хорошо ловит настроение), но недавно меня так допёк некачественный трек из Suno, что я вспомнила про Riffusion и решила попробовать исправить акустические погрехи этого трека, сохранив его при этом точно таким же - стилистически, мелодически, текстуально.

Интерфейс Riffusion
Интерфейс Riffusion

У этой сетки тоже вполне понятный интерфейс, а если покопаться в её возможностях, то они просто восхищают.
Во-первых, может менять стиль и жанр, это так круто после Suno!
Во-вторых, огромные возможности для редактирования созданного трека.
В-третьих, само качество треков гораздо лучше по акустике и интереснее, тоньше, интеллектуальнее, богаче во всех смыслах.
Riffusion - это просто чудо!
Переходите по ссылке, эта дивная нейросеть вас порадует и удивит.

Но вернусь к теме: как же исправить трек из Suno - в Riffusion.
1. Сперва отрываем окно генерации трека по стрелке:

-3

2. В открывшемся окне делаем всё так, как указано красным:

-4

а) Передвигаем три ползунка: Strength, Lyrics strength, Weirdness
б) Пишем три волшебных слова keep the same style (сохранить прежний стиль)
в) Слева вверху выбираем не Prompt, а Compose
г) Ставим переключатель Advanced в активное положение (он станет чёрным)
д) Внизу слева по кнопке Upload загружаем наш трек, сгенерированный Suno, он не должен быть слишком большим и длинным, если что не так, выйдет отказ, тогда надо как-то ужимать его.
(Кстати, не обязательно грузить треки именно из Suno - допустим, у Вас есть файл какой-то песни, которая Вам нравится, но записана в плохой акустике, и Вы хотите получить её в лучшем качестве - тоже можно! Может быть небольшое изменение голоса по тембру, но очень незначительное, в целом Вы получите точно такой же трек, особенно если будете этого добиваться, запуская генерацию повторно с теми же настройками - рано или поздно Riffusion поймёт Вас и сгенерирует всё идеально, это ещё одна его особенность: он приспосабливается к пользователю, начинает "понимать" его).
е) После этого в окне появится наш аудиофайл и текст под ним, в нём возможны ошибки, надо их исправить. Рекомендую выделить заглавными буквами ударения в некоторых словах. Впрочем, Riffusion может правильно расставить их и сам.
В тексте будут разметки, означающие куплет, припев и могут быть иные структурные теги, знакомые нам по Suno: [Verse 1], [Chorus], [Verse 2], [Bridge] и т.п. Лучше всё это удалить и самим ввести текст. Если надо - со своей разметкой.
ж) Выбираем режим Cover слева вверху.
И - внимание! - смотрим в правый верхний угол. Там справа от загруженного трека песни будет значок настроек, на который надо нажать. Откроется окошечко, в котором надо передвинуть ползунок влево на "0", это очень важно, если мы хотим, чтобы не было никаких вариаций, и песня сгенерировалась в точности такой же по мелодии и стилю, с тем же голосом, какой мы её загрузили.

-5

з) Ещё раз проверяем все настройки, как на картинках (ползунки могут сдвинуться после загрузки аудио).
И после всего этого нажимаем наконец синюю кнопку Generate в правом нижнем углу.

Начинается генерация двух треков, потом можем их прослушать, если надо - скорректировать (описывать этот процесс не буду, в нём легко разобраться).
А потом можно скачать не только новый трек, но и - это принципиальное отличие от Suno - стемы (разделённые партии вокала, ударных, гитары и других инструментов). Стемы получаются очень качественными, с минимумом шума, из них легко потом делать каверы.
Сам трек тоже можно скачать в разных форматах.
Справа от трека нажать три точки и посмотреть, что можно с ним сделать.

Разницу в треках, сгенерированных Suno и треках от Riffusion предлагаю услышать самим.

Вот здесь песня на основе трека Suno:

Марина Махорина. Рубикон

А здесь трек в Riffusion:

https://www.producer.ai/song/f0dcf705-94dd-42ed-9c0e-a6303bc66be4

Стихи были написаны мною в ноябре 1982 года, когда умер Л.И. Брежнев.
Я была совсем юной тогда, но почувствовала, как повеяло каким-то ледяным ветром, как из преисподней... Предчувствие, что прежняя жизнь окончена, и начинается какая-то мрачная эпоха, контуры которой ощутила всем своим существом. Я и раньше их ощущала, потому и говорила о некоем Рубиконе, к которому мы подошли, и который надо перейти самим, сознательно, пока нас не затащили во что-то такое, что плохо кончится.

P. S. В Riffusion уже появились лимиты:

-6

P. P. S. Статья, увы, стала актуальной только для платной версии, я писала её, пока была бета-версия.