207 подписчиков

ByteDance создала ИИ, который превращает фото в видео: как это работает?

7 февраля 20257 фев 2025

2 мин

Компания ByteDance разработала новую систему искусственного интеллекта под названием OmniHuman-1. Она умеет превращать обычные фотографии в реалистичные видеоролики, где люди двигаются, жестикулируют и даже говорят. Это серьезный шаг вперед по сравнению с предыдущими технологиями, которые могли анимировать только лица или верхнюю часть тела. Пока эта нейронка недоступна для публичного использования. Система создает видео в полный рост, где люди выглядят максимально естественно. Она учитывает речь, движения тела и даже мимику. Например, если на фото человек улыбается, на видео он будет улыбаться и жестикулировать в соответствии с текстом или аудио. Раньше подобные технологии ограничивались анимацией отдельных частей тела, но OmniHuman-1 справляется с задачей целиком. Это делает ее более универсальной и полезной для реальных приложений. Чтобы научить OmniHuman-1, разработчики использовали более 18 700 часов видеозаписей с людьми. Система анализировала текст, аудио и движения тела, что по

Оглавление

Что умеет OmniHuman-1?
Как обучали ИИ?
Чем OmniHuman-1 лучше других систем?

Компания ByteDance разработала новую систему искусственного интеллекта под названием OmniHuman-1.

Она умеет превращать обычные фотографии в реалистичные видеоролики, где люди двигаются, жестикулируют и даже говорят. Это серьезный шаг вперед по сравнению с предыдущими технологиями, которые могли анимировать только лица или верхнюю часть тела. Пока эта нейронка недоступна для публичного использования.

Что умеет OmniHuman-1?

Система создает видео в полный рост, где люди выглядят максимально естественно. Она учитывает речь, движения тела и даже мимику. Например, если на фото человек улыбается, на видео он будет улыбаться и жестикулировать в соответствии с текстом или аудио.

Раньше подобные технологии ограничивались анимацией отдельных частей тела, но OmniHuman-1 справляется с задачей целиком. Это делает ее более универсальной и полезной для реальных приложений.

Как обучали ИИ?

Чтобы научить OmniHuman-1, разработчики использовали более 18 700 часов видеозаписей с людьми. Система анализировала текст, аудио и движения тела, что позволило ей учиться на огромном количестве данных. Такой подход, который команда назвала «всеобщие условия», помогает ИИ лучше понимать, как люди двигаются и взаимодействуют.

Исследователи объяснили, что использование множества входных данных — текста, аудио и поз — значительно сокращает потери информации. Это делает видео более реалистичными и детализированными.

Чем OmniHuman-1 лучше других систем?

В ходе тестирования OmniHuman-1 показала результаты, которые превзошли существующие системы по нескольким ключевым параметрам. Например, она лучше справляется с анимацией полного тела и синхронизацией движений с речью.

Примеры работы системы уже доступны в открытом доступе, и они впечатляют. Видео выглядят настолько реалистично, что их легко спутать с настоящими записями.

Что происходит в мире ИИ?

ByteDance — не единственная компания, которая активно развивает технологии искусственного интеллекта. Например, китайский гигант Alibaba недавно представил новую версию своей модели Qwen 2.5-Max, которая, по заявлениям компании, превзошла популярную модель DeepSeek-V3. А сама DeepSeek анонсировала запуск своей новейшей ИИ-модели Janus-Pro-7B.

OmniHuman-1 — это еще один шаг к тому, чтобы ИИ стал неотъемлемой частью нашей жизни. С ее помощью можно создавать реалистичные видео для кино, рекламы, образования и даже социальных сетей. И кто знает, может, скоро мы будем использовать такие технологии в повседневной жизни, даже не замечая этого.