Это тот редкий случай, когда слово «прорыв» не выглядит натяжкой. Alibaba Cloud выложила в открытый доступ Qwen3-TTS — модель синтеза речи, которая ещё вчера спокойно конкурировала с закрытыми коммерческими решениями, а сегодня доступна всем: бесплатно, с кодом и без ограничений на кастомизацию. Причём речь не о «роботизированном TTS», а о живых голосах, эмоциях, стриминге и клонировании по трёхсекундному сэмплу. Qwen3-TTS — это не одна модель, а целое семейство. Две основные версии (1.7B и 0.6B) закрывают почти весь спектр задач: от продакшн-стриминга до локального инференса. ⚙️ Дизайн голоса по тексту
Можно буквально написать: «мужской голос, 40 лет, спокойный, уверенный, с лёгкой хрипотцой» — и получить уникальный тембр без аудиопримера. 🎙 Клонирование голоса из 3 секунд
Три секунды аудио — и модель воспроизводит тембр, причём кросс-языково: русский голос спокойно заговорит по-английски или по-японски. 🌍 10 языков из коробки
Включая русский, с нормальной интонацией и без «акцента