Новый AI-инструмент работает с высокой точностью в режиме реального времени. Он может значительно повысить работу контакт-центров. Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи. Она достигла высокой взвешенной точности 74,6% на одном из наиболее сложных для проверки функционала модели датасетов IEMOCAP (Interactive Emotional Dyadic Motion Capture). Ее качество превосходит большинство аналогов. Сначала система детектирует характеристики речи, а потом добавляет к ним данные о звуках голоса. Эти два типа информации объединяются с помощью спецмеханизма, эффективно соединяя общие характеристики речи с ее детальными особенностями. Этот инструмент решает проблему несоответствия чистых аудиоданных, на которых обучены SSL-модели, и эмоциональных датасетов с различной интонацией и интенсивностью. Он будет полезен в системах
Ученые улучшили распознавание эмоций по голосу с помощью искусственного интеллекта
10 февраля 202510 фев 2025
1 мин