В начале апреля Yandex Cloud представил новые голоса, которые узбекистанские компании могут использовать при создании голосовых роботов и умных помощников. Голоса Юлдуз и Лола одинаково хорошо говорят на узбекском и русском и понимают диалоги, в которых эти языки смешаны. Также они умеют общаться разным тоном в зависимости от ситуации.
Об особенностях разработки речевых технологий в Узбекистане и о том, как они расширяют возможности бизнеса, рассказала Елена Белоброва, руководитель направления по развитию речевых технологий Yandex Cloud.
Зачем бизнесу разные голоса и где их найти
Технологии синтеза и распознавания речи, на базе которых можно разрабатывать голосовых роботов и помощников, реализованы в сервисе Yandex SpeechKit. Он позволяет озвучивать любой контент, добавлять голосовое управление в приложения, автоматизировать колл-центры. Это снижает нагрузку на сотрудников, сокращает затраты и повышает качество клиентского сервиса.
SpeechKit работает с узбекским языком с 2023 года и продолжает активно развиваться с учетом локальных особенностей. Новые голоса, доступные в сервисе, поддерживают узбекский и русский. Также технология понимает речь, в которой есть оба языка. Это важно, чтобы робот мог бесшовно переходить на язык пользователя. То есть если помощник здоровается "xayrli kun", а собеседник отвечает "добрый день", то робот перейдет на русский и продолжит тем же голосом.
Разные эмоциональные амплуа нужны для того, чтобы помощник общался в соответствии с ситуацией. Например, услуги предлагал приветливо "с улыбкой", а сложные вопросы решал серьезным голосом — слишком позитивный настрой в таком случае можно воспринять как насмешку.
Раньше бизнесу в Узбекистане был доступен один голос — Нигора. Она говорила только на узбекском языке.
У Лолы и Юлдуз три амплуа:
- нейтральное, доброжелательное;
- "с улыбкой", дружелюбное;
- эмпатичное и серьезное.
Еще голоса умеют переходить на шепот. Эта опция подходит, когда клиент звонит вечером или обращается к помощнику шепотом, чтобы не отвлекать кого-то рядом.
Если нужен уникальный голос, можно воспользоваться сервисом SpeechKit Brand Voice. Мы запишем голос актера, сотрудника или любой другой и на основе него создадим кастомную модель синтеза речи.
Больше о возможностях для бизнеса и реальных кейсах Yandex Cloud расскажет 29 апреля на митапе в Ташкенте. Мероприятие проходит совместно с партнером Yandex Cloud — Cloupard, который обеспечивает техническую возможность использовать речевые сервисы Яндекса в Узбекистане.
Как мы разрабатывали речевые технологии в Узбекистане
В Узбекистане модель нужно обучить, по сути, трем языкам: узбекскому, русскому и смешанному варианту. У нас уже был подобный опыт в Казахстане, и мы применили тот же подход к разработке модели.
Эта особенность повышает и без того серьезные требования к актерам-дикторам. Для синтеза на любом языке мы сначала оцениваем кандидата примерно по 20 техническим параметрам: правильное дыхание, стабильный тембр, хорошая дикция и пр. Также учитываем эмоциональную составляющую — чтобы голос был приятным. В Узбекистане диктор должен пройти отбор по всем критериям на двух языках, что усложняет поиск.
Как технологии синтеза и распознавания речи помогают бизнесу
Речевые технологии пользуются наибольшим спросом в телекоме, финансовом секторе и ритейле — на эти сферы приходится более 65 % рынка. Другие крупные направления — государственные организации и разработчики, которые создают решения на базе наших технологий. В основном их используют для автоматизации колл-центра, создания голосовых помощников в приложениях и на сайтах, а также озвучки аудиокниг.
Автоматизация колл-центра полезна компаниям, которым приходится отвечать на однотипные запросы: о готовности документов, балансе счета, наличии товара и т. п. Голосовой робот интегрируется с базой данных организации и получает из нее всю необходимую информацию.
Также голосовые роботы освобождают от рутинной работы и проблемных сценариев, которые часто приводят к выгоранию: холодных продаж, напоминаний о платежах и пр.
Голосовые помощники в приложениях и на сайтах упрощают использование сервисов. Пользователь может голосом перевести деньги, оформить продукт, узнать баланс и т. д.
Озвучивать аудиокниги с помощью ИИ быстрее и дешевле, чем с привлечением актеров озвучивания. Можно интонационно выделять слова и разделы, менять скорость речи, выбирать голоса для разных героев.
Роботы позволяют экономить на коммуникациях, если в колл-центре более 50 операторов. И чем больше однотипных звонков, тем выше эффективность автоматизации.
Что нужно учесть при автоматизации колл-центров
Для пользователя общение с роботом сильно различается в зависимости от типа звонка. При входящем звонке человеку нужно получить информацию, и, если робот справился, вероятнее всего, пользователь при следующем обращении снова захочет поговорить с ИИ-помощником. При этом не стоит скрывать от человека, что это робот: он будет четче формулировать запросы, и помощник лучше его поймет.
При исходящих звонках, где конверсия и так невысокая, собеседник зачастую сразу кладет трубку, если распознает робота. Поэтому в таких сценариях делают помощников, максимально похожих на живых операторов.
Пользователи пока могут настороженно относиться к голосовым помощникам. Решение простое и сложное одновременно: завоевать доверие можно только качественным сервисом. Чем чаще робот будет справляться с вопросом клиента, тем быстрее люди начнут доверять ИИ-помощникам и общаться с ними, как с обычными операторами.