50 подписчиков

Исследователи Meta* Research выпустили нейросеть для генерации жестов и мимики 3D-аватаров на основе записанной речи

Исследователи Meta* Research представили нейросеть для анимации 3D-аватаров по голосу. Модель использует два типа нейросетей для лучшей гибкости. Три модели анимируют лицо, позу и жесты, сначала генерируя движения лицевых мышц по аудио с помощью регрессора губ. Для позы используется нейросеть Кохонена, а для связанных движений - диффузионная модель. Результаты фотореалистичны, и метод обеспечивает динамичные движения. Код проекта доступен на GitHub с инструкцией и сценариями обучения. Проведена демонстрация на Colab для тестов.

Около минуты

17 января 2024