11,8 тыс подписчиков

🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

Новая модель StyleTTS 2 для преобразования текста в речь (TTS), которая использует диффузию стилей и состязательное обучение с большими моделями языка речи (SLM) для достижения синтеза речь на человеческом уровне.

StyleTTS 2 отличается от своих предшественников тем, что моделирует стили как скрытую случайную переменную с помощью диффузионных моделей для генерации наиболее подходящего стиля для текста, без эталонных примеров.

В данной работе впервые достигнут синтез TTS на человеческом уровне как на одноязычных, так и на многоязычных наборах данных.

🖥 Github: https://github.com/yl4579/StyleTTS2

🔥Colab: https://colab.research.google.com/github/yl4579/StyleTTS2/blob/main/

⚡️ Demo: https://huggingface.co/spaces/styletts2/styletts2

📚 Paper: https://arxiv.org/abs/2306.07691

🌟 Demo: https://seamless.metademolab.com/expressive

🥩 Page: styletts2.github.io

@machinelearning

🦾 StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models Новая модель StyleTTS 2 для преобразования текста в речь (TTS),...

00:56

Около минуты

4 декабря 2023