Небольшая группа исследователей искусственного интеллекта из Института интеллектуальных вычислений Alibaba Group демонстрирует с помощью созданных ими видеороликов новое приложение искусственного интеллекта, в которое можно загрузить фотографию лица человека и саундтрек, в котором кто-то говорит или поет, и использовать их для создания анимированной версии человека, говорящего или поющего под эту голосовую дорожку. Группа опубликовала документ, описывающий свою работу на arXiv.
Ранее исследователи продемонстрировали приложение с искусственным интеллектом, которое может обрабатывать фотографию лица и использовать ее для создания полуанимационной версии. В этом новом проекте команда Alibaba пошла еще дальше, добавив звук. И, не менее важно то, что они сделали это без использования 3D-моделей или ориентиров лица. Вместо этого команда использовала диффузионное моделирование, основанное на обучении ИИ на больших наборах данных аудио- или видеофайлов. В этом случае команда использовала около 250 часов таких данных для создания своего приложения, которое они назвали Emote Portrait Alive (EMO).
Путем прямого преобразования аудиосигнала в видеокадры исследователи создали приложение, которое фиксирует тонкие жесты человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение лица как человеческое. Видео точно воссоздают вероятные формы рта, используемые для формирования слов и предложений, а также выражения, обычно связанные с ними.
Команда опубликовала несколько видеороликов, демонстрирующих поразительно точную работу, которую они создали, утверждая, что они превосходят другие приложения по реалистичности и выразительности. Они также отмечают, что длина готового видео определяется длиной исходной звуковой дорожки. В видеороликах исходное изображение показано рядом с человеком, говорящим или поющим голосом человека, записанного на исходной звуковой дорожке.
В заключение команда признает, что использование такого приложения необходимо будет ограничить или контролировать, чтобы предотвратить неэтичное использование такой технологии.