Найти тему
10,2 тыс подписчиков

🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models


Новая модель StyleTTS 2 для преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM) для достижения синтеза речь на человеческом уровне.

StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.

В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.







🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models  Новая модель StyleTTS 2 для преобразования текста в речь (TTS),...
00:56
Около минуты