Мы разработали сервис синтеза речи, который может быть развернут в рамках нашего собственного программного обеспечения в любой бизнес-сфере, в которой заказчику необходим голосовой помощник в дополнение к системам самообслуживания.
Для непосредственного создания звуковых файлов может применяться любой сервис распознавания и озвучивания речи — Google Speech-to-Text, Yandex SpeechKit, голосовая платформа Microsoft. На данном этапе наш сервис опирается на решение от компании Google, мы готовы к подключению других голосовых платформ по заявкам клиентов.
Ключевые характеристики используемой нами платформы Google Speech-to-Text:
- Поддержка 120+ языков и языковых разновидностей
- Точное произношение, форматирование фраз в зависимости от языковой ситуации (например, даты, номера телефонов)
- Высокий уровень имитации речи, приближенный к реальной жизни
- Поддержка Языка разметки синтеза речи (Speech Synthesis Markup Language), основанного на XML
Сервис уже сейчас используется в нашей Системе электронной очереди, представляет простой и мощный API, который позволяет получать сформированные на основе сторонней голосовой платформы mp3 голосовые сообщения в режиме реального времени или предварительно создавать кэш из звуковых файлов. Кэш строится на основе собственных алгоритмов и внутренней базы сервиса.
Преимущества нашего решения:
- Низкая стоимость генерации новых файлов. Для базы звуковых файлов на основе Google Speech-to-Text цена составляет 16 USD за 1 млн. символов
- Снижение стоимости владения сервисом за счет сегментирования сообщений. Каждый уникальный сегмент озвучивается только один раз
- Для среднестатистической электронной очереди достаточно порядка 200 USD для бесшовного (без сегментирования) озвучивания всех вариантов текстовок вызова клиента
- Собственные алгоритмы нормализации сообщений, которые позволяют еще больше снизить обращения к внешним сервисам
Современные голосовые сервисы на сравнительно высоком уровне решают вопрос имитации произношения, приближенного к естественному — устранены проблемы по воссозданию тембра голоса, плавности звучания и интонации.
Созданное нами решение использует все преимущества современных технологий по распознаванию и озвучиванию от крупнейших мировых разработчиков. В случае необходимости мы готовы обеспечить наших существующих или потенциальных клиентов системой голосового помощника для любого программного продукта, с кратчайшим сроком запуска и минимальными финансовыми затратами.