74 подписчика
ИИ для анализа коммуникации и сбор «датасета человеческого мычания»
Цифровые ассистенты стали привычной частью жизни. Все уже оценили то, что подписка на онлайн сервисы с нейросетью под капотом обходится намного дешевле профессиональных услуг, оказываемых людьми. К тому же, цифровой помощник готов включиться всегда, когда вам удобно.
Но большинство нейросетей доступных на рынке сегодня генерируют ответы на основе предобработанных данных, а вот анализаторов речи в реальном времени, рекомендательных сервисов по развитию коммуникации нам не встретилось.
Так родилась идея создать цифрового аудио-помощника для анализа и коррекции речи.
В первую очередь мы провели кабинетное исследование по имеющимся решениям в области анализа интонаций, специфики говорения и всему тому что не связано с непосредственно произносимым текстом.
В этом поле обнаружился целый ряд лакун. Например выяснилось что никто пока что не занимался анализом человеческого «мычания» - произносимых звуков «эээ». Собрав чуть ли не самый крупный датасет мычащих людей в стране и проведя ряд полевых исследований мы выяснили, что «интервальные мычания» (правильно называть их термином хезитации) есть у всех, но по длительности интервалов и сами мычаний мы можем многое сказать о качестве речи, так как именно этот показатель позволяет отнести говорящего к одной из групп с «типичными ошибками речи».
Кроме того в процессе исследования выяснилось что специфические мычания (связанные с произносимым текстом) указывают на трудности в понимании.
Неожиданно интерес к нему проявил целый ряд крупных организаций от ФНС и Россети до Агентства инноваций Москвы. Причем анализировать им было интересно также и токсичность и связность речи, и еще ряд новых для нас параметров. В данный момент мы завершаем обновление фич сервиса на основе подобных запросов.
Андрей Комиссаров и Команда Digital Learning
1 минута
24 марта 2023