Работает проще некуда: даете нейросети несколько секунд записи человека, а дальше она может читать любой текст тем же голосом. Звучит это довольно реалистично: качество до 48 кГц, как у нормальной записи. Самое безумное — скорость. Модель генерирует речь в 150 раз быстрее реального времени. То есть минутный текст она может озвучить за доли секунды. При этом ИИ нужно меньше 1 ГБ видеопамяти, поэтому ее можно запускать даже на обычном ПК или ноутбуке локально. Ссылка Telegram: @Age_of_it
Клонируем голос за пару СЕКУНД — вышла легкая моделька для синтеза речи, которая умеет копировать чужой голос по короткому аудиофайлу
ВчераВчера
~1 мин