Исследователи приложили немало усилий для автоматизации MER, и за последние несколько лет вид исследуемой музыки постепенно перешел от символической к примитивным звуковым сигналам и от западной классической музыки к популярной.
Западная классическая музыка часто выбирается в ранних исследованиях отчасти из-за богатой литературы по музыковедению и психологии классической музыки, и отчасти потому, что кажется, что легче достичь согласия в отношении восприятия эмоций от выбора классической музыки.
Однако, поскольку целью MER является облегчение поиска и управления музыкой в повседневном прослушивании музыки, а также популярная музыка, доминирующая в повседневном прослушивании, анализ эмоционального содержания популярной музыки в последнее время привлекает все большее внимание.
Категорический подход к MER.
Сам подход принимает категориальную концептуализацию эмоций и классифицирует музыкальные произведения по классам эмоций.
Основное преимущество этого подхода заключается в том, что его легко интегрировать в текстовую систему поиска информации или систему, основанную на метаданных.
Как и другие музыкальные метаданные, такие как жанры и инструменты, образы эмоций предоставляют детальное описание музыки, которое позволяет пользователям извлекать музыку через несколько ключевых слов.
Многие работы следовали этому направлению и обучили классификаторы, предсказывающие класс эмоций, который наилучшим образом отражает аффективное содержание музыкального сигнала .
Главным недостатком категорического подхода к MER является то, что небольшое количество классов первичных эмоций слишком мало по сравнению с богатством музыкальных эмоций, воспринимаемых человеком.
С другой стороны, использование более тонкой детализации не обязательно решает всю проблему, поскольку язык категоризации эмоций по своей природе неоднозначен и варьируется от человека к человеку.
Более того, использование большого количества эмоций может перегрузить предметы, поэтому подход также не считается практичным для психологических исследований.
Например, для аффективных терминов: спокойствие/миролюбие, беззаботность, спокойствие/мягкость, расслабленность - мы не можем просто количественно определить их сходство только, потому что они являются синонимами.
Эта двусмысленность и гранулированность описания эмоций приводит к предложению размерного подхода к MER.
Сбор данных.
Из-за отсутствия общей базы данных большинство существующих программ составляют собственную базу данных.
Поскольку ручная работа является трудоемкой, размер базы данных ранних работ обычно составляет менее 1000 единиц.
Чтобы сделать базу данных как можно более общей, полезно иметь большую базу данных, которая охватывает все виды музыки, жанры и даже песни на разных языках.
Существует множество факторов, препятствующих созданию общей базы данных.
Во-первых, до сих пор не достигнуто консенсуса в отношении того, какая эмоциональная модель или сколько категорий эмоций следует использовать.
Классификация эмоций различна и состоит из:
- трех классов;
- четырех классов;
- шести классов;
- восьми классов;
- тринадцати классов;
Некоторые выводы основаны на основных эмоциях, предложенных психологами, в то время как некоторые основываются на кластеризации аффективных терминов или тегов.
Сравнение с предыдущими работами, в которых используются разные категории эмоций и разные наборы данных, практически невозможно.
Во-вторых, из-за проблем с авторским правом аудио файлы не могут распространяться так же свободно, как текстовые документы или изображения.
Хотя эмоциональные аннотации могут быть опубликованы, это не относится к аудиофайлам.
Аудиофайлы необходимы, если исследователь хочет извлечь новые музыкальные функции, которые могут иметь отношение к восприятию эмоций.
В ответ на эту потребность с 2007 года проводится ежегодная задача по классификации аудио-настроения (АН) в рамках программы MIREX (обмен информацией для поиска музыкальной информации), которая направлена на содействие исследованиям в области АН и проведение сравнительного анализа.
Звуковые файлы доступны участникам этой задачи, которые согласились не распространять их в коммерческих целях, с тем чтобы избавиться от проблем с авторским правом.
Являясь пока единственным эталоном в области MER, этот конкурс ежегодно привлекает большое количество участников.
Более популярной функцией распределения эмоций является классификация эмоций по четырем классам эмоций:
- Счастливые.
- Сердитые.
- Печальные.
- Расслабленные.
Частично потому, что они связаны с основными эмоциями, изученными в психологических теориях, и частично потому, что они охватывают четыре квадрата двумерного валентно-арустального плана.
Кроме того, было отмечено, что между категориями 2 и 4 существует семантическое дублирование (двусмысленность) и акустическое дублирование между категориями 1 и 4.
Вопрос таксономии (распределения) эмоций, похоже, остается открытым.
Заключение. Предварительная обработка данных.
Для корректного сравнения музыкальных сэмплов музыкальные произведения обычно преобразуются в стандартный формат, например, частота дискретизации 22 050 Гц, 16-битная точность и моноканал.
Поскольку полные музыкальные произведения могут содержать разделы с разными эмоциями, часто выбирается сегмент, который является репрезентативным для всей песни, чтобы уменьшить эмоциональную изменчивость в рамках сегмента и облегчить состояние аннотации эмоций на темы.
Таким образом, это можно сделать, выбрав вручную наиболее репрезентативную часть, проведя анализ музыкальной структуры для извлечения раздела хора или просто выбрав средний отрывок из 30 секунд.
И, наконец, для изучения влияния сегментации музыки на распознавание эмоций было проведено мало исследований, если таковые вообще проводились. Поэтому развитие еще в перспективе.
Продолжение в следующей статье...
Благодарю за внимание!
Ссылка на предыдущий материал: https://zen.yandex.ru/media/id/5dc9a91568e68b209078723b/klassifikaciia-sochetaniia-zvukov-5dcf00d477c1617acad0aa7e