Взаимодействие человека и искусственного интеллекта становится всё более естественным благодаря новым технологиям. Совместная команда Сбербанка и Высшей школы экономики (ВШЭ) представила систему, которая распознаёт эмоции с точностью, превышающей лучшие аналоги на 10%. Как им это удалось и что это значит для бизнеса и общества? В основе системы лежит мультимодальный анализ — одновременная обработка мимики, голоса и речи человека. В отличие от традиционных решений, которые фокусируются только на выражении лица, новая разработка использует временные свёрточные сети (TCN) и трансформерные архитектуры для синхронной работы с видео и аудио. Такой подход позволяет системе «видеть» и «слышать» эмоции, даже если лицо частично закрыто или в помещении шумно. Результаты впечатляют: система на 10% точнее определяет эмоциональное состояние, чем лучшие из существующих моделей, анализирующих только мимику. Она распознаёт не только базовые эмоции, но и их динамику — изменения в настроении собеседника
Почему система Сбера и ВШЭ распознаёт эмоции лучше других — в чём секрет мультимодального анализа?
19 июня 202519 июн 2025
2 мин