Как научить систему речевой аналитики понимать слово «эчпочмак» и как распознавание голоса помогает бизнесу
Станислав ЕЖОВ, менеджер по новым цифровым продуктам поставщика облачных коммуникационных решений для бизнеса «Манго Телеком»
Если задаться вопросом, насколько часто современный человек общается с искусственным интеллектом (англ. – artificial intelligence, AI), то большинство людей скажут, что это в основном происходит с продвинутыми пользователями, у которых есть, к примеру, часы Apple Watch с ассистентом Siri или умная колонка «Яндекса» с помощником Алисой. Правда, не так давно голосовой помощник появился в приложении «Сбера», услугами которого пользуется больше половины населения России, так что число «собеседников» умных алгоритмов постоянно растет. Однако если копнуть глубже, голосовыми помощниками дело не ограничивается, и человек может пообщаться с «роботом», даже не зная об этом. Такое часто происходит, когда он обращается, к примеру, в колл-центр банка или магазина, либо когда ему на телефон звонит оператор с предложением новых товаров и услуг.
Чтобы разобраться, как это работает, представим колл-центр большой компании с миллионами клиентов по всей России. У каждого его сотрудника есть строгий алгоритм, регламентирующий то, как и что он должен говорить во время звонков, например, вежливо приветствовать клиента, извещать его о специальных предложениях, воздерживаться от определенных речевых конструкций, фраз вроде «это невозможно». За соблюдением этих правил следят специальные люди, основная задача которых – находить операторов, которые совершают ошибки, и поправлять их. Однако понятно, что нельзя к каждому из нескольких тысяч сотрудников приставить отдельного «надзирателя», который будет его контролировать в режиме 24/7. Здесь могут помочь алгоритмы, способные перевести голос в текст, а в таком виде данные можно почти моментально обработать и узнать, например, кто и как часто произносил слово «скидка» в течение дня, не ругался ли кто-то из сотрудников матом и не употреблял ли другие «стоп-слова». Важный нюанс состоит в том, что, строго говоря, никто из клиентов, участвующих в разговоре с сотрудником колл-центра, напрямую с «искусственным разумом» не общается, последнему разрешено записывать и распознавать речь только работников компании, давших свое согласие на подобную процедуру, поэтому система речевой аналитики настроена так, чтобы «не слышать» реплик клиента в диалоге. Но при определенных настройках AI может анализировать и клиентский монолог, не зря же нас предупреждают, что все разговоры записываются.
Речевой анализ, напомню, работает с записями телефонных переговоров, распознает их, применяя элементы AI, и позволяет выделить по заданным критериям нужные смысловые параметры: что было сказано или не сказано, кем, клиентом или сотрудником, в какой момент. На основе полученных данных формируются отчеты, которые позволяют осветить тот или иной аспект в качестве консультаций на линии или в запросах потребителей, определить слабые стороны в продажах или сервисе. Но надо учитывать, что точность распознавания большинства систем речевой аналитики резко снижается из-за ряда факторов, в том числе качества звука и уровня шума в помещении, акцента говорящего, использования жаргонных слов или каких-то национальных «словечек», свойственных тому или иному региону. Еще хуже дело обстоит, если тема диалога является узкоспециализированной, например, речь идет о фармакологии или финансовой сфере, когда AI просто перестает понимать отраслевые термины. Профессиональный жаргон, как и диалекты, мало кому понятен, а уж тем более нечеловеческому интеллекту, их анализирующему. Но именно распознавание и понимание редко или локально употребляющихся слов может повысить эффективность работы конкретной компании.
К счастью, алгоритмы, как и люди, способны обучаться. Наша компания, в частности, предлагает своим клиентам возможность дообучения алгоритма речевой аналитики платформы Mango Office. Справедливости ради, дополнительное обучение системы доступно у большинства поставщиков речевой аналитики, но мы в «Манго Телеком» автоматизировали, упростили и ускорили этот процесс. Вместо обращения с заявкой в службу технической поддержки или к менеджеру на стороне разработчика наши пользователи могут самостоятельно, в личном кабинете, добавлять необходимые им слова или выражения, которые чаще всего вызывают проблемы у алгоритма. Далее мы обучаем нейросеть понимать их. Для этого нейросети потребуется провести процедуру валидации гипотез в отношении новых для нее лексем и соответствующих контекстов, после чего аналитика будет полностью готова воспринимать их в естественной речи. Это важное преимущество нашего решения, так как крупнейшие вендоры алгоритмов голосовой аналитики такой возможности не предлагают: их клиентам приходится работать с один раз обученным алгоритмом, и внести изменения в его базу уже невозможно.
Алгоритмы голосовой аналитики после дополнительного обучения могут разобраться в любой локальной специфике. Например, если сервисом пользуется ресторан татарской кухни, робота можно обучить названиям всех местных блюд или научить узнавать названия улиц. Все это делает речевой анализ более гибким, а сферу его применения в бизнесе – более широкой.
Уверен, алгоритмы распознавания речи будут постепенно все теснее интегрироваться в повседневную жизнь, и, возможно, уже через несколько лет идея поговорить с микроволновкой или холодильником ни у кого не вызовет удивления.