Электроника, IT, технологии и не только!

106 подписчиков

Как научиться говорить абсолютно любым голосом? VoiceAI или будущее уже наступило!

28 января 202428 янв 2024

5 мин

Оглавление

Что нам потребуется?
Установка ПО

Предупреждение! Данная статья предназначена для людей с достаточно мощным ПК (преимущественно видеокартой) или просто для тех, кому эта тема достаточно интересна.

Итак, многие уже давно знают про то, что умеют делать нейросети на сегодняшний день. ChatGPT, распознавание картинок, решение капчи и многое другое. Так вот, сегодня я вам расскажу про еще одну фишечку нейронного обучения: трансформация вашего голоса под любой другой в режиме реального времени. Интересно? Тогда начнём.

Что нам потребуется?

Энтузиасты уже сделали все за нас. Нам не нужно создавать свою нейронку, обучать её обработке голоса и тому подобному. Достаточно установить уже готовую программу на свой компьютер и немного попрактиковаться с настройками. Ну и хороший компьютер тоже не помешает (OS Mac or Windows). На Linux данная нейросеть не работает от слова совсем.

Также данное удовольствие очень плохо работает с видеокартами AMD (проверено на личном опыте).

Установка ПО

Этап I. Virtual AC.

Предварительно рекомендую начать с создания виртуального аудио-выхода (выхода, на который будет идти наш уже обработанный голос).

Для этого открываем любую поисковую систему и в строке поиска пишем: "Virtual audio cable" (Дзен может ругаться на сторонние ссылки, поэтому оставляю по минимуму). И переходим на сайт, выделенный на скриншоте ниже:

Далее установка немного начинает варьироваться. Если у вас устройство не Apple, то скачиваем программу для Windows (верхний квадратик), в противном случае нижний. Для Linux данная нейросеть не предназначена, оговаривал выше.

После этого распаковываем скачанный архив и запускаем "VBCABLE_Setup.exe" или "VBCABLE_Setup_x64.exe (Зависит от разрядности вашей системы. x32? Запускаем первый файлик. x64? Запускаем второй.)

P.S. Как проверить разрядность системы? (Необязательно, если вы и так знаете):

1) Выходим на рабочий стол и нажимаем сочетание клавиш "Win+R"

2) В открывшемся окне пишем "msinfo32" (без кавычек и пробелов) и жмём "ОК"

3) В окне появится информация о вашем ПК. Нас интересует строка "Тип": x32 или x64.

Теперь нажимаем кнопку "Install driver". Возможно, когда-то давно он у вас уже был установлен и будет написано что-то вроде "Remove driver". Тогда всё закрываем и пропускаем этот этап.

Далее, система начнёт процесс установки, откроет синее окно на весь экран и по окончании запросит перезагрузить ПК. Перезагружаемся. Установка выполнена.

Этап II. Нейросеть.

Теперь к самому важному. Переходим по ссылке, указанной ниже:

github.com

Это ссылка на GitHub энтузиастов-разработчиков данной программы. Пролистываем вниз и нажимаем на синюю надпись:

Теперь очень внимательно смотрим на скриншот ниже. (Чтобы скачать файл, нужно нажать на одну из кнопок, выделенных чёрным цветом). Постарался по максимуму указать все, что нужно:

Теперь остаётся только ждать скачивания архива... Долгое, томительное ожидание... Да ладно, уже всё скачалось, распаковываем:).

Открываем папку и видим огромную кучу всяких файлов... Нас интересует два из них: "start_http.bat" и "start_https.bat". Пробуем запустить сначала http, если не получается прям никак, то https.

У вас откроется командная строка. Скорее всего, при первом запуске всё зависнет минуты на 3 и кроме моргающего курсора вы ничего не будете видеть. Ничего страшного, всё нормально. После "отвисания" начнётся скачивание дополнительных файлов и их загрузка в нейросеть. (Если система вас попросит разрешить программе доступ к Частным сетям, разрешаем).

Спустя еще несколько минут в командной строке появится надпись "Try to start server". Система пытается запустить нейросеть, ждём. В моём случае попыток запустить нейросеть было около 30+ штук (Да, сказывается количество ОЗУ и AMD система).

В конце концов должно открыться окно нейросети. (Командную строку не закрываем) По умолчанию у вас будет установлен "Аниме голос" и стандартные пресеты для японских потребителей.

Уже можно начинать самостоятельно играться, если вы знаете как, и вам интуитивно всё понятно. Но если всё, что сейчас происходит для вас - "Темный лес", то добро пожаловать! Этап №3.

Этап III Обзор функционала программы.

Итак, краткое описание меню прилагается ниже:

Зелёным выделены установленные пресеты голоса, которые можно удалять, выбирать и добавлять (об этом позже)

1) (3 кнопки) "Старт" - включить обработку голоса. "Стоп" - выключить обработку голоса. "passthru" сквозной метод обработки голоса (честно, сам не знаю точного функционала этой кнопки).

2) GAIN - усиление звука. IN - усилить входной звук (звук вашего микрофона). OUT - усилить звук на выходе (обработанный голос).

3) NOISE - шумоподавление (можете экспериментировать сами, но сильно влияет на нагрузку GPU).

F0 Det - метод вычислительной обработки голоса (тоже выбирайте сами, но на AMD доступно только два типа).

S.Thresh - не разобрался, извините.

CHUNK - влияет на задержку и качество обработки. (чем больше чанков, тем больше задержка между тем, что вы сказали в микрофон и вашим обработанным голосом, но иногда может помочь на слабых ПК).

EXTRA - сколько чанков в такт обрабатывает ваш ЦП или видеокарта. Чем меньше, тем хуже, но нагрузка на ПК меньше.

GPU - на какое устройство будет приходиться основная задача по обработке (Лучше выбирать gpu0).

4) AUDIO - настройки входа и выхода звука. На вход ставим ваш микрофон (меню "input"). На выход ставим виртуальный аудио-выход "Virtual Cable". Также можно в реальном времени себя "прослушивать". Для этого в monitor ставим ваши "динамики" или "наушники".

5) REC - возможность записать свой голос. Функция плохо работает, не рекомендую.

6) Дополнительные настройки, которые вряд ли когда-то понадобятся.

Теперь можно выбрать любой из тестовых пресетов (выделено зеленым) и нажать Start (может всё зависнуть, зависит от ПК). Также можно крутить степень обработки голоса "TUNE" и "INDEX".

После нажатия кнопки "Старт" показатели, выделенные оранжевым, начнут меняться. Скажите что-нибудь в микрофон и внимательно смотрите на показатель "res". Если все хорошо, то он будет в пределах 30-200ms. Если ваш ПК не выдерживает, то показатель будет улетать в тысячи и десятки тысяч миллисекунд. Варианта два, либо апгрейд ПК, либо ослаблять степень обработки голоса.

Теперь перейдём к тому, как установить другие пресеты голоса.

Вверху ищем кнопку Edit и нажимаем на неё. Вращаем немного вниз и в пустое место жмём upload, предварительно скачав пресет голоса из интернета (об этом позже).

Настоятельно рекомендую скачивать из интернета onnxRVC пресеты. Они работают везде и всегда.

На скриншоте выше зелёным выделил куда и что загружать. Файл Index во второе окно, файл Model в первое. Жмём Upload и в верхнем меню должен появиться новый пресет.

В конце добавлю лишь несколько слов о том, как искать RVC пресеты голоса. Открываем поисковик и пишем что-то вроде: "RVC голос Васи Пупкина". Переходим по первым ссылкам, скачиваем, сканируем, распаковываем и тестируем. Часто подсовывают "битые" голоса, поэтому искать приходится долго, но сделать это нужно всего лишь раз. Такие вот дела.

На этом всё! Очень прошу вас подписаться на мой канал! Ваше внимание и мнение очень важно для меня! Спасибо за прочтение! Всем добра и позитива!