Для создания точной копии голоса достаточно аудиозаписи продолжительностью всего 10 секунд. Модель стремится идеально передавать человеческие эмоции и делает это с невероятной скоростью — задержка составляет всего 110 миллисекунд. Полный код доступен на GitHub, а также есть бесплатная демка 🔵ClewAI
Представлена MisoTTS 8B, самая совершенная, быстрая и компактная модель генерации речи, которая побила все рекорды бенчмарков
СегодняСегодня
~1 мин