Эмоции – это то, что делает нас людьми. Но их распознавание оказалось непростой задачей для нейросетей: причина в том, что освещения, ракурсы, фоновый шум – все эти условия постоянно меняются, а ИИ начинает теряться и сбоить. Учёные Сбера в этих условиях вдохновились… Людьми. И создали маленькие модели, которые можно запустить даже на телефоне и которые учитывают при определении эмоций не только выражение лица, но и другие факторы. Секрет в комбинации трёх источников информации: мимики, звучания голоса и смысла сказанных слов. Вместо того чтобы полагаться только на изображение лица, система анализирует сразу несколько каналов. Такой подход чем-то приближает ИИ к людям, которые тоже анализируют информацию из огромного количества каналов, чтобы понять настроение и мысли собеседника, а точность распознавания в итоге растёт. Выглядит как логичное продолжение предыдущих разработок Сбера, Giga Acoustic Model, которые умеют распознавать эмоции по голосу. Зачем это умение нужно людям – понятно