Найти в Дзене
НейроГайки

Почему система Сбера и ВШЭ распознаёт эмоции лучше других — в чём секрет мультимодального анализа?

Взаимодействие человека и искусственного интеллекта становится всё более естественным благодаря новым технологиям. Совместная команда Сбербанка и Высшей школы экономики (ВШЭ) представила систему, которая распознаёт эмоции с точностью, превышающей лучшие аналоги на 10%. Как им это удалось и что это значит для бизнеса и общества? В основе системы лежит мультимодальный анализ — одновременная обработка мимики, голоса и речи человека. В отличие от традиционных решений, которые фокусируются только на выражении лица, новая разработка использует временные свёрточные сети (TCN) и трансформерные архитектуры для синхронной работы с видео и аудио. Такой подход позволяет системе «видеть» и «слышать» эмоции, даже если лицо частично закрыто или в помещении шумно. Результаты впечатляют: система на 10% точнее определяет эмоциональное состояние, чем лучшие из существующих моделей, анализирующих только мимику. Она распознаёт не только базовые эмоции, но и их динамику — изменения в настроении собеседника
Оглавление

Введение

Взаимодействие человека и искусственного интеллекта становится всё более естественным благодаря новым технологиям. Совместная команда Сбербанка и Высшей школы экономики (ВШЭ) представила систему, которая распознаёт эмоции с точностью, превышающей лучшие аналоги на 10%. Как им это удалось и что это значит для бизнеса и общества?

Технология: три источника данных вместо одного

В основе системы лежит мультимодальный анализ — одновременная обработка мимики, голоса и речи человека. В отличие от традиционных решений, которые фокусируются только на выражении лица, новая разработка использует временные свёрточные сети (TCN) и трансформерные архитектуры для синхронной работы с видео и аудио. Такой подход позволяет системе «видеть» и «слышать» эмоции, даже если лицо частично закрыто или в помещении шумно.

Почему это важно?

Результаты впечатляют: система на 10% точнее определяет эмоциональное состояние, чем лучшие из существующих моделей, анализирующих только мимику. Она распознаёт не только базовые эмоции, но и их динамику — изменения в настроении собеседника в реальном времени. Это особенно ценно для сервисов, где важно быстро и корректно реагировать на эмоции клиента: кол-центры, службы поддержки, виртуальные ассистенты, телемедицина.

Где это уже работает и что дальше?

Система проходит тестирование в коммерческих и социальных проектах. В кол-центрах она помогает определять настроение звонящих, выявлять признаки агрессии или паники. В медицине — диагностировать депрессивные состояния по голосу и мимике пациента. В маркетинге — анализировать реакцию на продукты и рекламу. Технология адаптивна: если один из каналов (например, видео) недоступен, система автоматически усиливает роль других данных, сохраняя высокую точность.

Перспективы и вывод

Эксперты считают, что мультимодальный анализ эмоций — это качественный скачок в развитии эмоционального ИИ. В будущем такие системы станут частью виртуальных ассистентов, «умных» офисов, образовательных платформ и даже социальных сетей. Это позволит делать цифровое общение более человечным и чутким, а бизнесу — лучше понимать своих клиентов

____________________________________

Подробнее можно почитать в самом исследовании под названием «Временное моделирование с использованием TCN и трансформера для аудиовизуального распознавания эмоций» (Temporal Modeling via TCN and Transformer for Audio-Visual Emotion Recognition) опубликовано в материалах международной конференции AIST’24

-2

ИИ меняет мир, а НейроГайки — ваш гид. 🚀 Подпишись и следи за разборами стартапов, нейропроектов и технологий будущего
И больше актуальных новостей в нашем
ТГ канале