51 подписчик

Tencent выкатила нейросеть, которая создаёт 3D-миры из одной фотографии

7 сентября 20257 сен 2025

5 мин

Пока все обсуждают, как нейросети генерируют короткие видео по тексту, Tencent молча сделала следующий шаг. Они выкатили HunyuanWorld-Voyager — модель, которая берёт одну-единственную картинку и разворачивает её в полноценный, консистентный 3D-мир, по которому можно «пролететь» камерой. Это уже не просто генерация ролика. Это создание исследуемого пространства. Sora и аналоги могут делать красивые, но линейные клипы. Voyager же строит сцену с пониманием геометрии. Чувствуете разницу? Давайте разберёмся, что за магия тут под капотом и почему это может быть важнее, чем очередная модель для генерации мемов с котиками Всё гениальное просто. Вы даёте нейросети одну статичную картинку — например, фото горного пейзажа. Затем задаёте траекторию движения камеры: вперёд, влево, разворот. А на выходе получаете видео, как будто вы летите на дроне сквозь эту сцену. Но ключевое отличие от всех предыдущих «оживляторов фото» — Voyager не просто дорисовывает кадры. Он строит внутреннее представление сц

Оглавление

Что это вообще такое?
В чём магия? Ключевые фишки Voyager
Не просто видео, а RGB+D

Пока все обсуждают, как нейросети генерируют короткие видео по тексту, Tencent молча сделала следующий шаг. Они выкатили HunyuanWorld-Voyager — модель, которая берёт одну-единственную картинку и разворачивает её в полноценный, консистентный 3D-мир, по которому можно «пролететь» камерой.

Это уже не просто генерация ролика. Это создание исследуемого пространства. Sora и аналоги могут делать красивые, но линейные клипы. Voyager же строит сцену с пониманием геометрии. Чувствуете разницу?

Давайте разберёмся, что за магия тут под капотом и почему это может быть важнее, чем очередная модель для генерации мемов с котиками

Что это вообще такое?

Всё гениальное просто. Вы даёте нейросети одну статичную картинку — например, фото горного пейзажа. Затем задаёте траекторию движения камеры: вперёд, влево, разворот. А на выходе получаете видео, как будто вы летите на дроне сквозь эту сцену.

Но ключевое отличие от всех предыдущих «оживляторов фото» — Voyager не просто дорисовывает кадры. Он строит внутреннее представление сцены в виде 3D-облака точек. Именно поэтому «прогулка» получается такой реалистичной и бесшовной: объекты не плывут, перспектива не ломается, а мир сохраняет свою целостность.

Звучит как технология из будущего? Но у неё есть пара ключевых фишек, которые делают это возможным уже сегодня.

В чём магия? Ключевые фишки Voyager

Если копнуть глубже, то прорывная технология Tencent стоит на нескольких китах.

Не просто видео, а RGB+D

Это, пожалуй, главный секрет. Voyager одновременно генерирует не только цветное видео (RGB), но и карту глубины для каждого кадра (Depth или просто D).

Что это даёт? Модель не просто фантазирует, как может выглядеть следующий кадр. Она понимает, какие объекты находятся ближе, а какие — дальше. Она осознаёт геометрию сцены.

Именно благодаря этому сгенерированное видео можно без какой-либо дополнительной обработки превратить в качественную 3D-модель с помощью технологии 3D Gaussian Splatting. Конкурентам для такого трюка нужно сначала сгенерировать видео, а потом отдельными инструментами пытаться восстановить из него 3D-сцену, что часто приводит к артефактам.

Бесконечный мир на ходу

Вторая киллер-фича — «исследование мира на большие расстояния». Чтобы мир не разваливался, когда камера улетает далеко от исходной точки, разработчики придумали механизм «кэша мира».

Говоря по-простому, модель помнит, что она уже сгенерировала, и достраивает новые части сцены, опираясь на существующие. Это позволяет создавать длинные, консистентные пролёты, а не короткие обрывки, где каждый второй объект забывает, как он выглядел секунду назад.

Обучение без ручной разметки

Чтобы научить такую махину, нужна гора данных — видео с точной информацией о движении камеры и глубине сцены. Размечать такое вручную — адский труд.

Команда Tencent пошла другим путём. Они создали автоматический конвейер, который сам анализирует любое видео (из реального мира или Unreal Engine), оценивает в нём позы камеры и строит карту глубины. Так им удалось собрать датасет из более чем 100 000 видеофрагментов, не привлекая армию разметчиков. Элегантно.

Но главный вопрос: вся эта сложная технология действительно даёт лучший результат?

А оно лучше конкурентов?

Короткий ответ: да. Длинный ответ: да, и со значительным отрывом.

Разработчики не побоялись сравнить своё детище с другими открытыми решениями на нескольких бенчмарках.

1. Качество генерации видео. По стандартным метрикам (PSNR, SSIM, LPIPS), которые оценивают схожесть сгенерированных кадров с реальными, Voyager обошёл всех конкурентов, включая ViewCrafter и FlexWorld. Особенно это заметно на сложных сценах с большим движением камеры, где другие модели начинают «сыпаться» и генерировать артефакты.

2. Качество 3D-реконструкции. Здесь преимущество ещё заметнее. За счёт встроенной генерации карты глубины, 3D-сцены, восстановленные из видео Voyager, выглядят на порядок детальнее и точнее.

3. Комплексный бенчмарк WorldScore. Это вишенка на торте. WorldScore — это тест, который оценивает всё сразу: управляемость камеры, консистентность объектов, фотореалистичность и общее субъективное качество. И здесь HunyuanWorld-Voyager занял первое место с большим отрывом.

Хочу попробовать! Что нужно?

Самое приятное, что Tencent не просто похвастались, а выложили код и модели в открытый доступ. Правда, аппетиты у Voyager серьёзные

Минимальные системные требования — это NVIDIA GPU с 60 ГБ видеопамяти. Рекомендуемые — 80 ГБ.

Да, вы не ослышались. Для генерации видео в разрешении 540p нужен монстр уровня NVIDIA A100 или H100. Это сразу отсекает 99% домашних энтузиастов. С другой стороны, это и не инструмент для массового пользователя. Это заявка на лидерство в профессиональном сегменте: кино, спецэффекты, геймдев, архитектурная визуализация.

Разработчики также предусмотрели возможность распараллелить вычисления на несколько GPU с помощью фреймворка xDiT, что позволяет ускорить генерацию почти в 7 раз на кластере из восьми H20 GPU.

Для тех, кто всё же хочет потрогать технологию, есть Gradio-демо, которое можно запустить локально (если у вас есть подходящее железо).

Куда движется индустрия?

Выход HunyuanWorld-Voyager — это не просто очередной релиз. Это маркер важного тренда: генеративные модели уходят от плоских картинок и видео к полноценным 3D-мирам.

Стирание границ между 2D и 3D. Раньше создание 3D-сцены из фото было сложной многоэтапной задачей. Теперь этот процесс становится почти мгновенным. Это открывает невероятные возможности для быстрого прототипирования в играх, кино и VR.
Геометрия — всему голова. Модели, которые просто дорисовывают пиксели, достигли своего потолка. Следующий прорыв — за теми, кто научится понимать и генерировать геометрию, как это делает Voyager. Консистентность и реализм напрямую зависят от этого.
Автоматизация создания данных. Успех Voyager во многом обязан их «движку данных». Умение автоматически создавать гигантские, качественно размеченные датасеты становится ключевым конкурентным преимуществом. Кто владеет данными — владеет миром. Даже если эти данные созданы другой нейросетью.

Вердикт

HunyuanWorld-Voyager — это пока ещё не продукт для массового рынка. Это тяжёлая артиллерия для профессионалов, которая требует серьёзных вычислительных мощностей. Но как демонстрация технологий — это мощнейший ход.

Tencent показали, что гонка ИИ — это не только про большие языковые модели и чат-ботов. Битва за генерацию визуального контента переходит в третье измерение, и здесь у китайского гиганта есть все шансы стать лидером.

Пока мы ждём, когда подобные технологии станут доступны на потребительском железе, можно с уверенностью сказать одно: будущее, в котором виртуальные миры можно будет создавать по щелчку пальцев из одной фотографии, наступило чуть раньше, чем мы думали.

А что вы думаете? Это прорывная технология, которая изменит креативные индустрии, или просто ещё одна дорогая игрушка для корпораций? Делитесь мнением в комментариях!

Кстати, ещё больше разборов свежих AI-технологий и полезной информации из мира Python-разработки я публикую в своём Telegram-канале PythonTalk. А самые глубокие технические статьи лежат в моей базе знаний. Заглядывайте!

Гаджеты и электроника

5,73 млн интересуются