Найти в Дзене
Neurogen

Qwen3-TTS полностью в опен сорсе

1. Voice Clone - клонирование голоса за 3 секунды аудио 2. Voice Design - создание голосов по промптам 3. Voice Control - управление эмоциями, интонацией и стилем через естественный язык Первый аудиопакет после обработки одного символа, сквозная задержка синтеза всего 97 мс, хорошо зайдет для real-time диалогов Модель адаптирует тон, ритм и эмоциональную окраску на основе инструкций и семантики текста 🔘Доступные модели Версия 1.7B (максимальная производительность) Qwen3-TTS-12Hz-1.7B-VoiceDesign - создание голоса по описанию Qwen3-TTS-12Hz-1.7B-CustomVoice - 9 премиальных тембров с управлением стилем Qwen3-TTS-12Hz-1.7B-Base - базовая модель для быстрого клонирования и fine-tuning Версия 0.6B (баланс производительности и эффективности) - Qwen3-TTS-12Hz-0.6B-CustomVoice - 9 премиальных тембров - Qwen3-TTS-12Hz-0.6B-Base - базовая модель Все модели поддерживают streaming-режим По бенчмаркам voice design превзошел закрытую модель MiniMax-Voice-Design. Voice Control средний WER все

Qwen3-TTS полностью в опен сорсе

1. Voice Clone - клонирование голоса за 3 секунды аудио

2. Voice Design - создание голосов по промптам

3. Voice Control - управление эмоциями, интонацией и стилем через естественный язык

Первый аудиопакет после обработки одного символа, сквозная задержка синтеза всего 97 мс, хорошо зайдет для real-time диалогов

Модель адаптирует тон, ритм и эмоциональную окраску на основе инструкций и семантики текста

🔘Доступные модели

Версия 1.7B (максимальная производительность)

Qwen3-TTS-12Hz-1.7B-VoiceDesign - создание голоса по описанию

Qwen3-TTS-12Hz-1.7B-CustomVoice - 9 премиальных тембров с управлением стилем

Qwen3-TTS-12Hz-1.7B-Base - базовая модель для быстрого клонирования и fine-tuning

Версия 0.6B (баланс производительности и эффективности)

- Qwen3-TTS-12Hz-0.6B-CustomVoice - 9 премиальных тембров

- Qwen3-TTS-12Hz-0.6B-Base - базовая модель

Все модели поддерживают streaming-режим

По бенчмаркам voice design превзошел закрытую модель MiniMax-Voice-Design. Voice Control средний WER всего 2.34% в мультиязычной генерации. Voice Clone превзошел MiniMax и SeedTTS по стабильности речи. В кросс-языковом клонировании SOTA-результаты, превосходящие CosyVoice3

Токенизатор Qwen-TTS-Tokenizer-12Hz

Достиг рекордных показателей на LibriSpeech test-clean:

- PESQ: 3.21 (wideband) / 3.68 (narrowband)

- STOI: 0.96

- UTMOS: 4.16

- Схожесть говорящего: 0.95 (практически без потерь)

Демо

GitHub

Hugging Face

Блог

-2
-3