LuxTTS позволяет генерировать голосовые дипфейки по короткой аудиозаписи. Для воспроизведения текста тем же голосом требуется всего несколько секунд исходного аудио. Качество синтеза достигает 48 кГц, что соответствует профессиональным стандартам. Скорость генерации — в 150 раз быстрее реального времени: минутный текст озвучивается за доли секунды. Модель использует менее 1 ГБ видеопамяти и может работать на обычных устройствах. • Скачать модель можно по ссылке. https://dzen.ru/id/5c0e38ff46ef5c00aaa80527
Модель LuxTTS создает голосовые дипфейки за 3 секунды
17 марта17 мар
1
~1 мин