Исследователи из Института интеллектуальных систем Макса Планка, участника программы NVAIA NVIDIA, разработали комплексный алгоритм глубокого обучения, который может принимать любой речевой сигнал в качестве источника и реалистично анимировать 3D-модели лица. "Есть множество исследований по оценке трёхмерной формы лица, выражений лица и мимике по изображениям и видео. Гораздо меньше внимания уделялось оценке трёхмерных свойств лиц по звуку", — заявили исследователи в своей статье. "Понимание корреляции между речью и движением лица даёт дополнительную ценную информацию для анализа людей, особенно если визуальные данные зашумлены, отсутствуют или неоднозначны".
Команда сначала собрала новый набор данных 4D сканов лица вместе с речью. Набор данных состоит из 12 субъектов и 480 последовательностей по 3-4 секунды каждая. После того, как данные были собраны, команда обучила модели глубинной нейронной сети на графических процессорах NVIDIA Tesla с помощью фреймворка глубокого обучения Tenso