Для копирования голоса ей хватает всего 10 секунд записи, а задержка составляет около 110 миллисекунд. Разработчики также сделали упор на передачу эмоций и естественность звучания. Весь код забираем здесь. Также есть бесплатная демо-версия.
В опенсорс вышла MisoTTS 8B — новая модель для генерации и клонирования речи
8 июня8 июн
~1 мин