88,4 тыс подписчиков

Новая ИИ-модель ByteDance оживляет и озвучивает статичные изображения

6 января 20256 янв 2025

1 мин

Китайская компания ByteDance разработала новую ИИ-модель под названием INFP. Она умеет оживлять любые 2D-картинки, наделяя их возможностью не только двигаться, но и выполнять роль реалистичного аватара при видеозвонках. В отличие от других подобных решений, INFP способна создавать реалистичную анимацию разговора без необходимости вручную назначать роли говорящего и слушающего. Разработчики утверждают, что нейросеть особенно хороша в сопоставлении движений губ с речью и сохранении уникальных черт лица человека на картинке. Работа нейросети осуществляется в два этапа. На первом, который ByteDance называет Motion-Based Head Imitation, ИИ учится улавливать мелкие детали процесса общения, такие как мимика и движение головы. Затем эти данные накладываются на статичное изображение, приводя его в движение. На втором этапе (Audio-guided motion generation) система выясняет, как сопоставить звуки с естественными движениями, анализируя звук с обеих сторон диалога. Затем специальный компонент ИИ, н

В отличие от других подобных решений, INFP способна создавать реалистичную анимацию разговора без необходимости вручную назначать роли говорящего и слушающего. Разработчики утверждают, что нейросеть особенно хороша в сопоставлении движений губ с речью и сохранении уникальных черт лица человека на картинке.

Работа нейросети осуществляется в два этапа. На первом, который ByteDance называет Motion-Based Head Imitation, ИИ учится улавливать мелкие детали процесса общения, такие как мимика и движение головы. Затем эти данные накладываются на статичное изображение, приводя его в движение.

На втором этапе (Audio-guided motion generation) система выясняет, как сопоставить звуки с естественными движениями, анализируя звук с обеих сторон диалога. Затем специальный компонент ИИ, называемый диффузионным трансформером, постепенно превращает полученные шаблоны в плавные и реалистичные анимации. Для этого ИИ-модель обучалась на наборе разговоров людей общей длительностью более 200 часов. .

Следующая цель разработчиков — создание реалистичной анимации всего тела человека на основе статичного изображения. Но запускать модель в свободный доступ они пока не спешат из-за возможностей злоупотребления дипфейками.

Гаджеты и электроника

5,73 млн интересуются