Специалисты из института интеллектуального анализа данных Alibaba создали систему искусственного интеллекта EMO, которая оживляет статические изображения людей, позволяя им реалистично разговаривать или петь. Система имитирует мимику и движение головы, которые соответствуют эмоциональному контексту озвученного текста, создавая анимацию. «Традиционные методы зачастую неспособны передать полный спектр человеческих выражений лица и уникальность отдельных его стилей. Для решения этих проблемы мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза из аудио в видео, минуя потребность в промежуточных 3D-моделях или лицевых опорных точках», - пояснил руководитель группы разработчиков Линьжуй Тянь. В основе работы EMO лежит технология диффузионных моделей ИИ, способная создавать реалистичные визуальные образы. Разработчики обучили систему на большом объеме данных, включающих более 250 часов записей «говорящих голов»: выступлений, фрагментов кино, телешоу и музыкальных клипов.
Появилась нейросеть, которая реалистично анимирует фото людей
4 марта 20244 мар 2024
59
1 мин