456 подписчиков

Притвориться человеком: как развивается речевой ИИ

10 минут

1 прочтение

23 июля 2021

Технологии речевого искусственного интеллекта (ИИ), которые лежат в основе работы виртуальных голосовых ассистентов, чат-ботов и других применяемых сегодня инструментов, развиваются очень быстро. В Meticulous Research прогнозируют, что в 2025 году глобальный рынок распознавания голоса и речи составит $26,8 млрд долларов. В России, по данным исследования Accenture, рынок чат-ботов ожидает ежегодный прирост на 30% или примерно на 400–600 млн рублей в год в течение трех лет, начиная с 2020 года. И пока бизнес присматривается к применимости речевого ИИ, разработчики готовятся к новым технологическим вызовам.

Российский сегмент

По данным группы ЦРТ, объем российского рынка разговорного AI в денежном выражении за период 2016-2020 годов увеличился в 3 раза и достиг отметки 2,3 млрд рублей, среднегодовой прирост составил 44,5%, что свидетельствует о нахождении сегмента в стадии стремительного роста.

Наибольший рост по количеству значимых игроков, по данным ЦРТ, наблюдается в сегментах «Диалоговые ассистенты, IVR» и «Чат-боты», на третьем месте — «Интеллектуальный анализ текстов». В период с 2016 по 2020 годов количество компаний, предоставляющих решения в сегменте «Диалоговые ассистенты», увеличилось с 47 до 77.

«Сейчас мы располагаем данными более чем о 850 внедрениях, 50,8% из них приходится на голосовых ассистентов. Динамика CR3 по модели A.T. Kearney (коэффициент концентрации конкуренции) за период 2016–2020 годов демонстрирует усиление конкурентной насыщенности сегмента, — говорит генеральный директор группы компаний ЦРТ Дмитрий Дырмовский. — Наиболее сильно это отразилось на направлении «Диалоговые ассистенты и IVR». Рост сегмента стимулировало быстрое технологическое развитие, в частности — технологический скачок, обусловленный появлением и распространением NLU [Natural Language Understanding, понимание естественного языка – ред.]».

Границы интеллекта

Пандемия подстегнула развитие технологии речевого ИИ за счет потребности в дистанционном взаимодействии. В ЦРТ к заинтересованным в использовании тренда относят все отрасли, где важен клиентский опыт. Сегодня по количеству внедрений разговорного AI, по данным компании, лидирует финтех: на долю банковского сектора приходится порядка 28,9% проектов, на втором месте — телеком — 10,4%. Далее следует ретейл с 9,4%. Все больше запросов приходит со стороны ТЭК (внедрения в ТЭК уже занимают долю 7,7%), транспорта (6,6%). Также есть спрос со стороны государственных и медицинских учреждений.

«Современные виртуальные ассистенты с качественным, реалистичным голосом, едва отличимым от голоса дружелюбного оператора, очевидно выиграют: они не умножают раздражение клиентов, которые несколько минут ждут своей очереди в ожидании оператора, потом ждут, когда оператор проверит информацию для ответа. Искусственный интеллект исследует весь цифровой ландшафт быстрее, что позволяет быстрее предоставлять четкие релевантные ответы, голосовые ассистенты всегда приветливы и действуют по скрипту», — говорит Дмитрий Дырмовский.

Руководитель R&D «Диджитал Дизайн» Владимир Стекольщиков к новаторам в сфере применения технологий ИИ относит прежде всего телеком и банки, оказывающие массовый клиентский сервис: контакт с потребителем и звонки — это большая часть их деятельности.

Владимир Стекольщиков («Диджитал Дизайн») (Фото: Диджитал Дизайн)

«Голосовые боты внедряют в первую очередь те компании, для кого это критичная часть бизнеса, есть большая часть рутинных действий, много данных и скрипт, который можно автоматизировать. Если в процессе много абстракции и отсутствуют понятные сценарии, автоматизация происходит сложнее, — отмечает Владимир Стекольщиков. — В остальном я не вижу отраслевой привязки в применении AI-технологий. Все компании стремятся извлекать выгоду из технологий, и здесь вопрос скорее в готовности компании к трансформации и управлению данными в целом. В любой отрасли есть интересные кейсы, так как это вопрос готовности адаптироваться — т.е. выживания».

Читайте на РБК+ Петербург:

Эксперты – о выборе призвания и о профориентации для детей

Семейный расчет: кто сможет воспользоваться новой ипотекой

Культурная перезагрузка

Посткризисное профобразование

Но даже в области телекома есть те игроки, которые не видят для себя преимуществ использования речевого ИИ. Например, генеральный директор «Комфортел» Дмитрий Петров указывает на экономическую составляющую подобных проектов. Оператор рассматривал предложения разработчиков, но пока замена людей в call-центре на роботов невыгодна: цены зачастую не оправданно высоки, схема монетизацию предусматривает оплату «за контакт», как в классическом call-центре.

Дмитрий Петров («Комфортел») (Фото: РБК Петербург)

«К тому же в B2B-сегменте, где мы работаем, требуется максимальная персонализация коммуникаций, которую ИИ пока обеспечить либо не может в принципе, либо может, но не в полном объеме. Так что придется тратиться и на внедрение и поддержку ИИ, и на ФОТ, — резюмирует Дмитрий Петров. — В B2C-сегменте ситуация иная: там речь идет в первую очередь про массовость обслуживания, которое роботы могут обеспечить хотя бы частично, забрав рутинную работу».

Нейронные сети vs алгоритмы

Здесь у отечественных разработчиков есть свои достижения, отмеченные за рубежом: на международном конкурсе CHiME 2020 технология распознавания речи группы ЦРТ была признана лучшей и обошла решения из США, Чехии и Китая.

«Российские разработчики, в том числе группа ЦРТ, одними из первых стали разрабатывать голосовых и текстовых роботов не на основе вопросно-ответных алгоритмов (когда в бота загружаются правила, что можно отвечать, а что — нельзя), а на основе нейронных сетей, — объясняет разницу подходов Дмитрий Дырмовский. — Недостаток ботов «на правилах» — необходимость иметь лингвистическую подготовку, например, робота нужно вручную обучать всем синонимам, имеющимся для слова в языке. Голосовые роботы на основе нейронных сетей не требуют столь высокой квалификации от разработчика робота, самостоятельно учитывают все особенности, присущие конкретному языку».

Речевые особенности

При этом Владимир Стекольщиков отмечает, что в России довольно быстро развивается применение общих моделей разговорного искусственного интеллекта (например, «Алиса»), но на зарубежном рынке гораздо больше подобных кейсов использования колонок и различных технологий. Голосовой интерфейс взаимодействия с информационными системами в России пока на зачаточном уровне, большая часть людей взаимодействуют с системами «пальцами». Это, по его мнению, связано с лингвистическими особенностями русского языка, меньшим объемом данных для анализа и обучения, да и заниматься этими технологиями мы стали позже, так что сейчас скорее «догоняем» зарубежный рынок. Есть отставание и в развитии синтеза речи.

По данным на апрель 2021 года «Яндекс» продал более 1,3 млн колонок с «Алисой». В Just AI, считают, что на долю этого решения приходится более 85% проданных в России подобных устройств, а уже в 2022 году у населения будет 4,6 млн колонок разных производителей.

«Мне кажется, что в России можно выделить практически только один успешный кейс — это автоматизация call-центров и звонков, когда есть два собеседника. Хорошо развиты отдельные решения, заточенные только под телефонные разговоры, даже исходящие вызовы. Но мы отстаем в части автоматизации полноценных бизнес-процессов, передавая голосовому помощнику рутинные задачи. К тому же для распознавания речи сейчас плохо развита технология диаризации, которая позволяет разделить речь по спикерам», — объясняет Владимир Стекольщиков.

Интеллект на доверии

Еще одним важным сдерживающим фактором является неприятие многими людьми контактов с ИИ. По данным онлайн-исследования Neuro.net, 37,6% россиян негативно относится к взаимодействию с голосовыми помощниками — преимущественно из-за предубеждений. Например, почти 60% опасаются, что робот не всегда сможет решить возникшую проблему, а почти 25% просто любят общаться с живыми людьми.

И действительно, в соцсетях часто описываются случаи, когда человек сумел «вывести ИИ на чистую воду» и добиться взаимодействия с человеком. Для многих это своего рода соревнование с ИИ. «Мне интересно понять, с кем я общаюсь — с человеком или с роботом, — рассказывает Дмитрий Петров. — И хотя я не имею ничего против взаимодействия с ИИ, пока роботы несовершенны, их можно распознать и главное — они не могут решить многие вопросы, с которыми люди обращаются в поддержку, особенно если эти вопросы немного выходят за рамки стандартной проблемы. И хотя сейчас люди тоже работают по скриптам, все же полностью заменить человека ИИ пока не готов».

«Люди не хотят общаться с AI, когда это плохо реализовано. Я, например, когда слышу задержку и искусственный голос, тоже начинаю раздражаться, — соглашается Владимир Стекольщиков. — Когда решение развито настолько, что может максимально «притвориться» человеком, то человек не будет даже идентифицировать в нем ИИ. Важно стремиться пройти условный тест Тьюринга и реализовать технологию так, чтоб человек не заметил разницы».

«Нет тенденции нежелания общаться с AI вообще, есть тенденция нежелания общаться с примитивным AI. Это вопрос прагматики и комфорта: очевидно, что робот, который отвечает скрипучим синтезированным голосом, невпопад, вызывая снисхождение лишь при переводе на оператора, не будет способствовать лояльности клиентов, не будет развивать клиентский опыт. При этом качественный робот, приветливый, мгновенно реагирующий на запрос, с плавным реалистичным голосом, оперативно удовлетворяя запрос без утомительного ожидания, будет вызывать улыбку клиента и лояльность», — объясняет Дмитрий Дырмовский.

По его словам, сегодня такая задача не является технологическим челленджем, такие решения активно внедряются и показывают эффекты: к примеру, чат-бот Александра, которого ЦРТ разработала совместно с командой Московского метрополитена, автоматизирует 88% вопросов без перевода на оператора, а в кейсе Tele2 чат-бот оптимизирует более 80% запросов.

Роботизированное будущее

Сегодня среди самых распространенных внедрений — виртуальные ассистенты, которые помогают ответить на вопросы клиента, выполнить конкретный запрос — например, записаться на прием к врачу, узнать о подготовке к исследованию, отменить запись, передать показания счетчиков и т.д.

Появились и менее стандартные варианты: банковские ИИ-ассистенты могут сделать перевод денег или совершить платеж; мобильные — поговорить со звонящим спамером или мошенником и отсечь такие вызовы.

В линейке «Диджитал Дизайн», к примеру, есть решение для автоматической подготовки итогов встреч SumMeet. Во время встречи можно давать боту голосовые команды, например, поставить задачу участнику составить черновик статьи, назначить встречу, оформить командировку, направить в СЭД поручения по итогам встречи. Бот записывает фразы после команды и передает дальше в виде задач. Такие итоги выделяются не только при помощи триггеров и команд, но и при дальнейшей обработке текста встречи, используя методы Natural Language Processing [технология обработки естественного языка – ред.]

Но пространства для роста и развития технологий разговорного интеллекта еще очень много. Владимир Стекольщиков среди наиболее актуальных направлений называет определение тональности общения, маркеры текста и речевую аналитику. Например, перспективно развитие возможности автоматической голосовой и лицевой идентификации спикера. «Заказчики хотят, чтобы система сразу определяла спикера, используя его голосовую дорожку. Для обучения модели достаточно использовать две минуты записи голоса, а идентифицировать человека по видео можно еще быстрее, однако это видео доступно не всегда», — говорит он.

Многие эксперты говорят о том, что будущее речевого ИИ за распознаванием пола собеседника, его возраста, настроения и пр. Но Дмитрий Дырмовский уверен, что вопрос определения гендера уже не является технологическим вызовом и решен: «Скоро появится возможность распознавания возраста. Запрос и перспектива таких трендов — в кастомизации: важно понимать, сколько обратившемуся человеку лет, чтобы, например, помочь разобраться, что такой большой счет желает оплатить ребенок, и предотвратить такие случаи. Здесь может быть востребована и биометрическая идентификация и верификация, которая также активно развивается».

Автор: Алена Журавлева