Введение: Будущее синтеза речи
Современные технологии продолжают удивлять своими возможностями. Одной из последних разработок стал новый синтез речи на базе больших языковых моделей (LLM), созданный командой TTS в Сбере. Этот инструмент не только повышает уровень естественности звучания, но и способен выражать эмоции, воспринимаясь как живой человек.
Переход к специализированным стилям
Одним из заметных достижений нового синтеза является возможность использования различных голосов, соответствующих специфическим стилям. Это позволяет создавать уникальный опыт взаимодействия для пользователей. Например, можно применять голос оператора колл-центра для обслуживания клиентов или использовать голоса для озвучки подкастов, что существенно расширяет границы применения технологии.
Технические инновации в синтезе речи
Использование архитектуры LLM для предсказания акустических токенов стало настоящим прорывом. Новый синтез применяет улучшенный токенизатор речи с режением на семантический и аку