Найти в Дзене
89 подписчиков

VoiceCraft: генератор речи на основе короткого голосового семпла. Как и XTTS или HierSpeech++ или MeloTTS отлично воспроизводит целевой вокальный тембр, но помимо этого позволяет редактировать отдельные слова в сказанном.


Под капотом генератор речи в размерах от 330М до 830М параметров. Самая большая версия 830 Enhanced в демо на хаггинге работает шустро, посему пробовать мелкие смысла не много. Зато они могут пригодиться на локальном запуске, если крупняк на видюху не влезет.

Для распознавания речи используется Whisper или его улучшенный вариант WhisperX, на выбор. Размер модели тоже можно выбрать: чем больше, тем лучше качество обработки на выходе. Существенной разницы в скорости между ними не заметил.

Скармливать можно только записи на английском длиной до 16 секунд.

1) Жмём Load Models
2) Закидываем исходный голос
3) Переводим его в текст кнопкой Transcribe
4) Делаем правки, если в распознавании были ошибки и жмём Align
5) Есть режим замены конкретных слов (Edit), и генерации (TTS или LongTTS). В режиме Edit выбираем начало и конец фразы, которую хотим заменить, или в TTS просто пишем то, что нужно сгенерить.
6) жмём Run и забираем справа измененный голосовой семпл

PS: теперь слово — воробей

Демо (колаб)
Демо (Replicate)
VoiceCraft: генератор речи на основе короткого голосового семпла.
00:57
1 минута