Новый синтез речи от Сбера: революция в ИИ и автоматизации

23 ноября 202523 ноя 2025

2 мин

Введение: Будущее синтеза речи

Современные технологии продолжают удивлять своими возможностями. Одной из последних разработок стал новый синтез речи на базе больших языковых моделей (LLM), созданный командой TTS в Сбере. Этот инструмент не только повышает уровень естественности звучания, но и способен выражать эмоции, воспринимаясь как живой человек.

Переход к специализированным стилям

Одним из заметных достижений нового синтеза является возможность использования различных голосов, соответствующих специфическим стилям. Это позволяет создавать уникальный опыт взаимодействия для пользователей. Например, можно применять голос оператора колл-центра для обслуживания клиентов или использовать голоса для озвучки подкастов, что существенно расширяет границы применения технологии.

Технические инновации в синтезе речи

Использование архитектуры LLM для предсказания акустических токенов стало настоящим прорывом. Новый синтез применяет улучшенный токенизатор речи с режением на семантический и аку

Введение: Будущее синтеза речи

Переход к специализированным стилям

Технические инновации в синтезе речи

Введение: Будущее синтеза речи
Современные технологии продолжают удивлять своими возможностями. Одной из последних разработок стал новый синтез речи на базе больших языковых моделей (LLM), созданный командой TTS в Сбере. Этот инструмент не только повышает уровень естественности звучания, но и способен выражать эмоции, воспринимаясь как живой человек.

Переход к специализированным стилям
Одним из заметных достижений нового синтеза является возможность использования различных голосов, соответствующих специфическим стилям. Это позволяет создавать уникальный опыт взаимодействия для пользователей. Например, можно применять голос оператора колл-центра для обслуживания клиентов или использовать голоса для озвучки подкастов, что существенно расширяет границы применения технологии.

Технические инновации в синтезе речи
Использование архитектуры LLM для предсказания акустических токенов стало настоящим прорывом. Новый синтез применяет улучшенный токенизатор речи с режением на семантический и акустический энкодеры, что обеспечивает более точное воссоздание тембра и интонаций. При этом частота дискретизации составляет всего 12,5 токенов в секунду, что позволяет значительно снизить нагрузку на систему.

Две архитектуры для разных задач
Команда разработала две основные архитектуры синтеза: Decoder-Only и Thinker-Talker, каждая из которых предназначена для выполнения специфических задач. Это позволяет максимально эффективно использовать возможности синтеза в различных областях, от деловой корреспонденции до развлекательного контента.

Обширные объемы обучающих данных
Для обучения новой модели использованы 30 тысяч часов разнообразных звуковых материалов, включая студийные записи, аудиокниги и взаимодействия операторов колл-центров. Такой объем данных обеспечивает высокое качество синтеза речи и позволяет модели чувствовать себя уверенно в различных контекстах.

Эмоциональный и реалистичный синтез речи
Одной из ключевых особенностей GigaTTS является использование детализированных системных промптов, которые контролируют синтез и передают эмоции диктора, добавляя реалистичности. Так, модель способна адаптироваться под эмоциональные состояния, что может улучшить общение пользователей с голосовыми ассистентами.

Мультичарковые режимы и клонирование голосов
Новый синтез также внедрил мультичарковые режимы для обработки длинных текстов и улучшения качества клонирования голосов с применением технологий few-shot learning. Эти методы открывают новые горизонты для пользовательского взаимодействия, позволяя легче адаптировать синтез под конкретные потребности.

Заключение: Влияние на бизнес и клиентский опыт
Синтез речи от Сбера уже находит применение в различных областях, включая озвучку подкастов и работу телефонных операторов. Эта технология не только увеличивает эффективность взаимодействия с клиентами, но и улучшает общее качество обслуживания, создавая персонализированный опыт для потребителей. Внедрение таких решений — важный шаг вперед в использовании ИИ и автоматизации в бизнесе России.