20 подписчиков

Сервис синтеза речи в ПО компании Soft‑logic

14 мая 202014 мая 2020

2 мин

Мы разработали сервис синтеза речи, который может быть развернут в рамках нашего собственного программного обеспечения в любой бизнес-сфере, в которой заказчику необходим голосовой помощник в дополнение к системам самообслуживания. Для непосредственного создания звуковых файлов может применяться любой сервис распознавания и озвучивания речи — Google Speech-to-Text, Yandex SpeechKit, голосовая платформа Microsoft. На данном этапе наш сервис опирается на решение от компании Google, мы готовы к подключению других голосовых платформ по заявкам клиентов. Ключевые характеристики используемой нами платформы Google Speech-to-Text: Сервис уже сейчас используется в нашей Системе электронной очереди, представляет простой и мощный API, который позволяет получать сформированные на основе сторонней голосовой платформы mp3 голосовые сообщения в режиме реального времени или предварительно создавать кэш из звуковых файлов. Кэш строится на основе собственных алгоритмов и внутренней базы сервиса. Преим

Для непосредственного создания звуковых файлов может применяться любой сервис распознавания и озвучивания речи — Google Speech-to-Text, Yandex SpeechKit, голосовая платформа Microsoft. На данном этапе наш сервис опирается на решение от компании Google, мы готовы к подключению других голосовых платформ по заявкам клиентов.

Ключевые характеристики используемой нами платформы Google Speech-to-Text:

Поддержка 120+ языков и языковых разновидностей
Точное произношение, форматирование фраз в зависимости от языковой ситуации (например, даты, номера телефонов)
Высокий уровень имитации речи, приближенный к реальной жизни
Поддержка Языка разметки синтеза речи (Speech Synthesis Markup Language), основанного на XML

Сервис уже сейчас используется в нашей Системе электронной очереди, представляет простой и мощный API, который позволяет получать сформированные на основе сторонней голосовой платформы mp3 голосовые сообщения в режиме реального времени или предварительно создавать кэш из звуковых файлов. Кэш строится на основе собственных алгоритмов и внутренней базы сервиса.

Преимущества нашего решения:

Низкая стоимость генерации новых файлов. Для базы звуковых файлов на основе Google Speech-to-Text цена составляет 16 USD за 1 млн. символов
Снижение стоимости владения сервисом за счет сегментирования сообщений. Каждый уникальный сегмент озвучивается только один раз
Для среднестатистической электронной очереди достаточно порядка 200 USD для бесшовного (без сегментирования) озвучивания всех вариантов текстовок вызова клиента
Собственные алгоритмы нормализации сообщений, которые позволяют еще больше снизить обращения к внешним сервисам

Современные голосовые сервисы на сравнительно высоком уровне решают вопрос имитации произношения, приближенного к естественному — устранены проблемы по воссозданию тембра голоса, плавности звучания и интонации.

Созданное нами решение использует все преимущества современных технологий по распознаванию и озвучиванию от крупнейших мировых разработчиков. В случае необходимости мы готовы обеспечить наших существующих или потенциальных клиентов системой голосового помощника для любого программного продукта, с кратчайшим сроком запуска и минимальными финансовыми затратами.