Китайская компания ByteDance разработала новую ИИ-модель под названием INFP. Она умеет оживлять любые 2D-картинки, наделяя их возможностью не только двигаться, но и выполнять роль реалистичного аватара при видеозвонках. В отличие от других подобных решений, INFP способна создавать реалистичную анимацию разговора без необходимости вручную назначать роли говорящего и слушающего. Разработчики утверждают, что нейросеть особенно хороша в сопоставлении движений губ с речью и сохранении уникальных черт лица человека на картинке. Работа нейросети осуществляется в два этапа. На первом, который ByteDance называет Motion-Based Head Imitation, ИИ учится улавливать мелкие детали процесса общения, такие как мимика и движение головы. Затем эти данные накладываются на статичное изображение, приводя его в движение. На втором этапе (Audio-guided motion generation) система выясняет, как сопоставить звуки с естественными движениями, анализируя звук с обеих сторон диалога. Затем специальный компонент ИИ, н
Новая ИИ-модель ByteDance оживляет и озвучивает статичные изображения
6 января 20256 янв 2025
60
1 мин