1654 подписчика

Ученые улучшили распознавание эмоций по голосу с помощью искусственного интеллекта

10 февраля 202510 фев 2025

1 мин

Новый AI-инструмент работает с высокой точностью в режиме реального времени. Он может значительно повысить работу контакт-центров. Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи. Она достигла высокой взвешенной точности 74,6% на одном из наиболее сложных для проверки функционала модели датасетов IEMOCAP (Interactive Emotional Dyadic Motion Capture). Ее качество превосходит большинство аналогов. Сначала система детектирует характеристики речи, а потом добавляет к ним данные о звуках голоса. Эти два типа информации объединяются с помощью спецмеханизма, эффективно соединяя общие характеристики речи с ее детальными особенностями. Этот инструмент решает проблему несоответствия чистых аудиоданных, на которых обучены SSL-модели, и эмоциональных датасетов с различной интонацией и интенсивностью. Он будет полезен в системах

Новый AI-инструмент работает с высокой точностью в режиме реального времени. Он может значительно повысить работу контакт-центров.

Исследователи лаборатории искусственного интеллекта Сбербанка, Института AIRI и МФТИ представили AI-модель Cross-Attention Feature Fusion for Speech Emotion Recognition (CA-SER) для распознавания эмоций человеческой речи. Она достигла высокой взвешенной точности 74,6% на одном из наиболее сложных для проверки функционала модели датасетов IEMOCAP (Interactive Emotional Dyadic Motion Capture). Ее качество превосходит большинство аналогов.

Сначала система детектирует характеристики речи, а потом добавляет к ним данные о звуках голоса. Эти два типа информации объединяются с помощью спецмеханизма, эффективно соединяя общие характеристики речи с ее детальными особенностями.

Этот инструмент решает проблему несоответствия чистых аудиоданных, на которых обучены SSL-модели, и эмоциональных датасетов с различной интонацией и интенсивностью. Он будет полезен в системах автоматического взаимодействия с человеком – голосовых чат-ботах, колл-центрах, приложениях цифрового мониторинга и прочих сферах, где нужно анализировать эмоции в режиме "нон-стоп".

Исходный код модели доступен в open source, поэтому исследователи могут использовать инструмент в своих исследованиях, чтобы провести эксперименты для проверки обобщаемости модели на другие языки и датасеты, повысить ее универсальность и применимость в реальных условиях. Обучать модель можно на русскоязычных эмоциональных корпусах.

Гаджеты и электроника

5,73 млн интересуются