Аффективные вычисления - это новая область исследований, целью которой является предоставление интеллектуальным системам возможности распознавать, чувствовать, делать выводы и интерпретировать человеческие эмоции.
Это междисциплинарная область, которая простирается от информатики до психологии и от социальных наук до когнитивных наук. Хотя анализ настроений и распознавание эмоций являются двумя различными темами исследований, они объединены в рамках исследования Аффективных вычислений.
Эмоции и чувства играют решающую роль в нашей повседневной жизни. Они способствуют принятию решений, обучению, коммуникации и пониманию ситуации в среде, ориентированной на человека. В последние два десятилетия или около того, исследователи пытаются наделить машины когнитивными способностями распознавать, интерпретировать и выражать эмоции и чувства. Все эти усилия можно отнести на счет аффективных вычислений. Анализ эмоций и настроений также стал новой тенденцией в социальных сетях, помогая пользователям понять мнение, выражаемое на различных платформах. С развитием технологий, изобилием смартфонов и быстрым ростом социальных сетей, огромное количество больших данных загружается не только в текст, но и в видео.
Эти видеоролики часто содержат сравнения продукции конкурирующих брендов, плюсы и минусы технических характеристик продукции и т.д., что может помочь потенциальным покупателям принять обоснованное решение. Основным преимуществом анализа видео по сравнению с текстовым анализом, для выявления эмоций и настроений на основе мнений, является избыток поведенческих подсказок. Хотя средства текстового анализа используют только слова, фразы и связи, а также зависимости между ними, известно, что их недостаточно для извлечения связанного с ними аффективного содержания из текстовых мнений.
На сегодняшний день большая часть исследовательской работы в этой области сосредоточена на мультимодальном распознавании эмоций с использованием визуальной и звуковой информации. С другой стороны, в настоящее время имеется весьма скудная литература по мультимодальному анализу настроений. Кроме того, большая часть работы по анализу настроений до сих пор проводилась в области обработки естественного языка (НЛП), поэтому доступные первичные наборы данных и ресурсы ограничиваются анализом мнений на основе текста.
Однако с появлением социальных сетей люди широко используют мультимодальные платформы социальных сетей для выражения своего мнения, используя видео (например, YouTube, Vimeo, VideoLectures), изображения (например, Flickr, Picasa, Facebook) и аудио (например, подкасты). Таким образом, крайне важно эффективно анализировать мнения и идентифицировать аффективную информацию на основе этих разнообразных модальностей Big Data. Исследования в области аффективных вычислений продолжают привлекать внимание как научных кругов, так и промышленности.
Это в сочетании с достижениями в области обработки сигналов и искусственного интеллекта Земли привело к разработке передовых интеллектуальных систем, которые направлены на обнаружение и обработку аффективной информации, содержащейся в мультимодальных источниках. Большинство таких современных систем, однако, полагаются на обработку одного способа, т.е. текста, аудио или видео.
Кроме того, все эти системы, как известно, имеют ограничения с точки зрения соответствия требованиям надежности, точности и общей производительности, что, в свою очередь, значительно ограничивает полезность таких систем для практического применения в реальных условиях. Целью мультисенсорного синтеза данных является повышение точности и надежности оценок.
Многие приложения, например, навигационные инструменты, уже продемонстрировали потенциал слияния данных. Это свидетельствует о важности и целесообразности разработки мультимодальной структуры, которая могла бы справиться со всеми тремя формами измерения: текстовым, аудио- и видеоматериалами в среде, ориентированной на человека. То, как люди естественным образом общаются и выражают свои эмоции и чувства, обычно мультимодально: текстовые, аудио- и визуальные модальности используются одновременно и когнитивно, чтобы обеспечить эффективное извлечение семантической и эмоциональной информации, передаваемой во время общения, тем самым подчеркивая важность такого плавного слияния.
Данные, полученные с помощью видеоматериала, могут быть полезным источником информации для анализа эмоций и настроений, однако существуют серьезные проблемы, которые необходимо решить. Например, то, как мы выражаем и выражаем свое мнение, варьируется от человека к человеку. Человек может высказывать свои мнения более громко, а другие - более наглядно. Когда человек выражает свое мнение с большей модуляцией голоса, аудио данные могут содержать важные подсказки для выяснения мнения.
С другой стороны, когда человек использует больше выражений лица, можно предположить, что большинство сигналов, необходимых для формирования общественного мнения, находятся в его выражениях лица. Следовательно, необходимо разработать общую контекстно-зависимую модель, которая может адаптироваться для любого пользователя и может дать последовательный результат в любой реальной среде.
Будучи людьми, мы также больше полагаемся на мультимодальную информацию, чем на унимодальную. Очевидно, что мы лучше понимаем намерение оратора, когда видим выражение его лица во время выступления. В совокупности звуковые и визуальные средства дают больше информации, чем они сами по себе. Это часто бывает, когда мозг полагается на несколько источников сенсорных входов в валидации событий. Используя их, он компенсирует любую неполную информацию, которая может помешать процессу принятия решений.
Например, во время автомобильной аварии человек может не видеть никакого пламени (видимого), но запах горящей резины и тепла, распространяющегося через приборную панель, будет сигнализировать мозгу, что огонь разжигается, требуя немедленного выхода из автомобиля. В этом примере информация, движущая реакцией мозга, больше, чем совокупные разнородные сенсорные входы.
Несмотря на значительные достижения в этой области, о которых сообщалось на сегодняшний день, остаются нерешенными серьезные исследовательские задачи, прежде чем мультимодальные устройства, позволяющие распознавать влияние в режиме реального времени, проникают в нашу повседневную жизнь. Некоторые из основных проблем, которые необходимо решить, перечислены ниже:
- - Непрерывные данные от реальных шумных датчиков могут генерировать неверные данные.
- - Определение того, относятся ли извлеченные аудиозаписи и высказывания к одному и тому же содержанию.
- - Мультимодальные модели анализа влияния должны быть обучены работе с большими данными из различных контекстов, чтобы построить обобщенные модели.
- - Эффективное моделирование временной информации в больших данных.
- - Для анализа мультимодальных больших данных в режиме реального времени необходимо разработать надлежащим образом масштабируемую архитектуру и платформу больших данных, чтобы эффективно справляться с неоднородными задачами в области больших данных, требующими все большей пространственной и временной сложности.
Выводы:
Д'Мелло и другие ученые подробно обсуждают сравнение точности по унимодальным и мультимодальным видам транспорта с использованием статистических показателей. Они предложили статистические методы для сравнения точности различных алгоритмов на разных наборах данных.
Поскольку существует недавнее литературное исследование, в котором в первую очередь обсуждается сравнение точности мультимодальных методов по наборам данных, в данной статье не рассматриваем этот аспект. Вместо этого сосредоточились на категоризации различных методов, сравнивая их на основе их индивидуального подхода.