В НИУ ВШЭ — Санкт-Петербург, специалисты из Лаборатории языковой конвергенции разработали «словарь нового типа», предназначенный для обучения нейронных сетей в сфере распознавания эмоциональных состояний. Этот набор данных состоит из 909 видеороликов общей продолжительностью 173 минуты, которые были оценены по шести различным эмоциям в четырех вариациях: полноценное видео, звуковая дорожка, текстовый формат и видеоряд без аудиосопровождения. Результаты показали, что наиболее эффективно эмоции распознаются при анализе текста и полноценного видеоматериала со звуком, в то время как выражение лица оказывает минимальное влияние на точность определения. Интонация голоса оказалась ключевой для передачи радости и удивления, словесное описание — для выражения злости, а сочетание текста и звука — для идентификации страха. Этот словарь уже находит применение в музейных инициативах и при разработке чат-ботов с повышенной эмпатией. Кроме того, он служит инструментом для оценки эффективности существ
Нейросеть распознает страх по голосу, злость — по тексту и видео
27 августа 202527 авг 2025
30
1 мин