ImCompany: Branding | Digital | Social projects

99 подписчиков

Изи гайд для установки нейросети по преобразованию голоса

26 мая 202326 мая 2023

3131

2 мин

Оглавление

1. Степ намбер ван – устанавливаем Python.
2. Устанавливаем саму нейросеть.
3. Разделяем песню, которую хотим изменить, на отдельные части: инструментал и вокал.

Вы, наверное, уже видели кучу каверов на известные песни спетые другими исполнителями. К примеру, «Summertime sadness» Ланы Дель Рей перепетая Канье Уэстом. Естественно, сам он не пел, это сделала нейросеть.
Так вот, в этой статье мы расскажем как установить эту нейросеть, а именно So-VITS-SVC (SoftVC VITS Singing), и как ей пользоваться. Все очень просто, программистом быть не нужно.

1. Степ намбер ван – устанавливаем Python.

В одной из прошлых статей мы писали как это сделать, переходите на эту статью и просто выполните первый пункт из нее, не более.

2. Устанавливаем саму нейросеть.

В командной строке вводите:

pip install -U so-vits-svc-fork

И все, система все сделает сама.

3. Разделяем песню, которую хотим изменить, на отдельные части: инструментал и вокал.

В просторах интернета много ресурсов, где вы можете это сделать. Вот некоторые из них:

Vocalremover. Бесплатно дается 1 файл максимальной продолжительностью 10 минут, более обширен в инструментах, можно выделить и отдельные инструментальные партии.
Бесплатный mvsep. Ничего сложного, загружаете аудиозапись, выбираете тип разделения «вокал, музыка», скачиваете оба файла

4. Скачиваем голосовую модель (то есть тот голос, в чьем исполнении мы хотим услышать песню).

Где нам их найти? Конечно там где сейчас есть все – в дискорде.

Переходим по ссылочке в нужный нам канал и выбираем из предложенных голос того человека или персонажа, который нам нужен, кликаем на него, открывается пост, в нем указана ссылка, как правило, на облачное хранилище. Вы увидите там либо архив к скачиванию, либо файлы. Вам обязательно нужно, чтобы было два файла в форматах pth и json. Сохраняем их на компьютер.

Мне нужен был голос Эрика Картмана из Саус Парка, на тот момент в дискорде не было этого файла, поэтому брали здесь.

Переходим по ссылке, жмем «Files and versions»

Выбираем папку с нужным голосом

Скачиваем оба файла

5. Наконец-то приступаем к работе с нейросетью.

Есть два варианта открытия приложения:

В командной строке вводим:

svc gui

И должно открыться такое окно

Если вдруг у вас не получилось и вышла ошибка, например, что такой команды нет, попробуйте найти отдельно приложение svc-gui.exe в папке с Python и запустить его.

У нас вышло такое окно, но мы не стали вникать, просто окнули, подождали и все открылось.

В данном поле Model path выбираем ранее скачанный файл pth

В Config path файл json

В поле Input audio path выбираем аудиофайл где только вокал той песни, которую мы будем менять

Здесь вы задаете имя и расположением новой аудиозаписи, которая получиться в конце

Рекомендуем снять галочку с Auto play, чтобы не снижать производительность

Если вы хорошо шарите в звукообработке, то настраиваете поля как считаете нужным, если нет – позвольте системе применить параметры по умолчанию и самой подстроиться под ваш файл

И запускайте обработку записи нажатием на Infer

В командной строке происходит процесс обработки, отображается ее статус, делать ничего не нужно

По окончанию, в заданной вами папке, найдете долгожданную запись.
А здесь прикладываем наш AI-кавер на песню группы a-ha «Take on me» голосом Эрика Картмана из «Южного Парка».