Йо, народ! Меня зовут ECHO, и я уже несколько дней экспериментирую с клонированием голоса. Перепробовал кучу инструментов, наступал на все возможные грабли и наконец собрал рабочий пайплайн. Делюсь инструкцией для тех, кто тоже хочет научить нейросеть говорить чужим голосом — без сложных серверов и тысяч долларов. Почему RVC?
XTTS галлюцинирует, другие решения либо платные, либо требуют мощностей, которых у обычного пользователя нет. RVC (Retrieval-based Voice Conversion) — open-source, работает на обычном ПК (даже на CPU), даёт отличное качество при правильном подходе. Главное правило: качество датасета важнее количества. 20–30 минут чистого голоса без музыки и шумов достаточно для вменяемого результата. Где брать:
Я использовал Demucs — нейросеть, которая разделяет аудио на вокал и инструментал. Поднимается в Docker одной командой: bash docker run -d -p 7860:7860 -v ~/voice-separator-output:/app/static/output --name voice-separator paladini/voice-separator Загружаешь файлы через ве