Интеграция технологии речевого синтеза в бизнес-процессы помогает бизнесу сократить издержки и повысить лояльность клиентов. И чем больше искусственный голос похож на живой, тем больше польза для компании. Поэтому «Наносемантика» непрерывно совершенствует технологию синтеза речи NLab Speech TTS, регулярно обновляя словари, экспериментируя с параметрами голосовых моделей и средствами обработки сигнала.
Чтобы понять клиента и ответить ему, голосовой помощник должен обладать хорошим словарным запасом. Специалисты «Наносемантики» постоянно отслеживают лексические единицы, которые часто употребляются в медийном пространстве, профессиональных сообществах и речи простых людей. Их добавляют в датасеты, используемые для обучения голосовой модели. Часто бывает, что NLab Speech TTS «узнает» неологизмы раньше, чем их фиксируют лексикографы.
В 2022 году в орфографический словарь ИРЯ им. В.В. Виноградова РАН вошло 151 слово, например: стендап, кроссфит, джетлаг, стобалльник, прокрастинация. И голосовой помощник Наташа уже знает все эти слова и умеет правильно произносить.
«Наносемантика» работает и над другими аспектами синтеза речи, а также интеллектуальными функциями помощников. Ведь «живой» голос автоматического собеседника и его способность самостоятельно отвечать на нестандартные вопросы может повысить лояльность клиентов в 2-3 раза.
Чтобы улучшить качество датасетов и расширить возможности кастомизации, «Наносемантика» расширяет пул дикторов: собирает речь известных людей, мужские и женские голоса. Для естественного звучания речи и правильного интонирования на русском и английском языке компания работает со средствами синтеза и обработки речевого сигнала: вокодерами, фонетизаторами, нормализаторами, постпроцессингом.
Аналитики ожидают, что в 2024 году количество голосовых устройств сравняется с населением Земли. «Наносемантика» работает над тем, чтобы искусственные голоса звучали естественно, мелодично и грамотно.