Найти в Дзене
InGenium

Инструменты машинного обучения могут предсказывать эмоции по голосам всего за секунду

Слова играют важную роль в выражении наших мыслей. Однако то, что мы не говорим, может быть еще более значимым для передачи эмоций. Человек часто может понять, что люди вокруг него чувствуют, исходя из невербальных сигналов, заложенных в наш голос. Теперь исследователи из Германии попытались выяснить, могут ли технические инструменты точно предсказывать эмоциональные оттенки в фрагментах голосовых записей. Для этого они сравнили точность трех моделей машинного обучения в распознавании различных эмоций в аудиозаписях. Их результаты были опубликованы в журнале Frontiers in Psychology.

"Мы показываем, что машинное обучение может быть использовано для распознавания эмоций из аудиофрагментов длительностью всего 1,5 секунды", - сказал первый автор статьи Ханнес Димерлинг, исследователь из Центра психологии продолжительности жизни в Макс-Планк-институте развития человека. "Наши модели достигли точности, сравнимой с человеческой, при категоризации бессмысленных предложений с эмоциональной окраской, произнесенных актерами".

Исследователи использовали бессмысленные предложения из двух наборов данных - канадского и немецкого, что позволило им исследовать, насколько точно модели машинного обучения могут распознавать эмоции независимо от языка, культурных особенностей и смыслового содержания. Каждый фрагмент был сокращен до длительности 1,5 секунды, так как именно столько времени нужно человеку, чтобы распознать эмоцию в речи. Это также самая короткая возможная длительность аудиозаписи, в которой можно избежать перекрытия эмоций.

Исследователи включили в исследование такие эмоции, как радость, гнев, грусть, страх, отвращение и нейтральность. На основе тренировочных данных они создали модели машинного обучения, которые работали по одному из трех способов: глубокие нейронные сети (DNN), которые анализируют компоненты звука, такие как частота или высота голоса, чтобы определить скрытые эмоции; сверточные нейронные сети (CNN), которые сканируют шаблоны в визуальном представлении звуковых дорожек, похожие на идентификацию эмоций по ритму и текстуре голоса; гибридная модель (C-DNN), объединяющая оба подхода.

Источник:

Внедрение методов машинного обучения для непрерывного прогнозирования эмоций на основе равномерно сегментированных голосовых записей (Implementing Machine Learning Techniques for Continuous Emotion Prediction from Uniformly Segmented Voice Recordings), Frontiers in Psychology (2024). DOI: 10.3389/fpsyg.2024.1300996

-------------------------------------

Вы можете поддержать проект подпиской на канал, реакциями и комментариями, а также подписавшись на наши страницы на других площадках и на сервисе поддержки авторов Бусти. Ссылки найдёте в описании канала. Заранее спасибо!

Наука
7 млн интересуются