Найти в Дзене

Новая система искусственного интеллекта Alibaba ‘EMO’ создает реалистичные видео с разговорами и пением на основе фотографий

Исследователи из Института интеллектуальных вычислений Alibaba разработали новую систему искусственного интеллекта под названием “EMO”, сокращенно от Emote Portrait Alive, которая может анимировать одну фотографию портрета и создавать видеоролики, на которых человек говорит или поет удивительно реалистично.
Система, описанная в исследовательском документе, опубликованном на arXiv, способна создавать плавные и выразительные движения лица и позы головы, которые точно соответствуют нюансам предоставленной звуковой дорожки. Это представляет собой значительный прогресс в создании видео с говорящими головами на основе звука - области, которая годами бросала вызов исследователям искусственного интеллекта. “Традиционные методы часто не позволяют передать весь спектр человеческих выражений и уникальность индивидуальных черт лица”, - сказал ведущий автор Линруй Тянь в статье. “Для решения этих проблем мы предлагаем EMO, новую платформу, которая использует прямой подход синтеза аудио в видео, ми

Исследователи из Института интеллектуальных вычислений Alibaba разработали новую систему искусственного интеллекта под названием “EMO”, сокращенно от Emote Portrait Alive, которая может анимировать одну фотографию портрета и создавать видеоролики, на которых человек говорит или поет удивительно реалистично.

Система, описанная в исследовательском документе, опубликованном на arXiv, способна создавать плавные и выразительные движения лица и позы головы, которые точно соответствуют нюансам предоставленной звуковой дорожки. Это представляет собой значительный прогресс в создании видео с говорящими головами на основе звука - области, которая годами бросала вызов исследователям искусственного интеллекта.

“Традиционные методы часто не позволяют передать весь спектр человеческих выражений и уникальность индивидуальных черт лица”, - сказал ведущий автор Линруй Тянь в статье. “Для решения этих проблем мы предлагаем EMO, новую платформу, которая использует прямой подход синтеза аудио в видео, минуя необходимость в промежуточных 3D-моделях или лицевых ориентирах”.

Система EMO использует технику искусственного интеллекта, известную как диффузионная модель, которая продемонстрировала огромную способность генерировать реалистичные синтетические изображения. Исследователи обучили модель на наборе данных из более чем 250 часов видеороликов с говорящими головами, взятых из выступлений, фильмов, телешоу и выступлений певцов.

В отличие от предыдущих методов, которые основывались на 3D-моделях лиц или смешивании форм для приближения движений лица, EMO напрямую преобразует аудиосигнал в видеокадры. Это позволяет ему улавливать едва уловимые движения и характерные особенности, связанные с естественной речью.

Помимо разговорных видеороликов, EMO также может анимировать портреты певцов с соответствующими формами рта и выразительными выражениями лица, синхронизированными с вокалом. Система поддерживает создание видеороликов произвольной продолжительности в зависимости от длительности входного звука.