10,2 тыс подписчиков
🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
Новая модель StyleTTS 2 для преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM) для достижения синтеза речь на человеческом уровне.
StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.
В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.
🖥 Github: https://github.com/yl4579/StyleTTS2
📚 Paper: https://arxiv.org/abs/2306.07691
🥩 Page: styletts2.github.io
Около минуты
4 декабря 2023