Добавить в корзинуПозвонить
Найти в Дзене
PythonTalk

Tencent выкатила нейросеть, которая создаёт 3D-миры из одной фотографии

Пока все обсуждают, как нейросети генерируют короткие видео по тексту, Tencent молча сделала следующий шаг. Они выкатили HunyuanWorld-Voyager — модель, которая берёт одну-единственную картинку и разворачивает её в полноценный, консистентный 3D-мир, по которому можно «пролететь» камерой. Это уже не просто генерация ролика. Это создание исследуемого пространства. Sora и аналоги могут делать красивые, но линейные клипы. Voyager же строит сцену с пониманием геометрии. Чувствуете разницу? Давайте разберёмся, что за магия тут под капотом и почему это может быть важнее, чем очередная модель для генерации мемов с котиками Всё гениальное просто. Вы даёте нейросети одну статичную картинку — например, фото горного пейзажа. Затем задаёте траекторию движения камеры: вперёд, влево, разворот. А на выходе получаете видео, как будто вы летите на дроне сквозь эту сцену. Но ключевое отличие от всех предыдущих «оживляторов фото» — Voyager не просто дорисовывает кадры. Он строит внутреннее представление сц
Оглавление

Пока все обсуждают, как нейросети генерируют короткие видео по тексту, Tencent молча сделала следующий шаг. Они выкатили HunyuanWorld-Voyager — модель, которая берёт одну-единственную картинку и разворачивает её в полноценный, консистентный 3D-мир, по которому можно «пролететь» камерой.

Это уже не просто генерация ролика. Это создание исследуемого пространства. Sora и аналоги могут делать красивые, но линейные клипы. Voyager же строит сцену с пониманием геометрии. Чувствуете разницу?

Давайте разберёмся, что за магия тут под капотом и почему это может быть важнее, чем очередная модель для генерации мемов с котиками

Что это вообще такое?

Всё гениальное просто. Вы даёте нейросети одну статичную картинку — например, фото горного пейзажа. Затем задаёте траекторию движения камеры: вперёд, влево, разворот. А на выходе получаете видео, как будто вы летите на дроне сквозь эту сцену.

Но ключевое отличие от всех предыдущих «оживляторов фото» — Voyager не просто дорисовывает кадры. Он строит внутреннее представление сцены в виде 3D-облака точек. Именно поэтому «прогулка» получается такой реалистичной и бесшовной: объекты не плывут, перспектива не ломается, а мир сохраняет свою целостность.

Звучит как технология из будущего? Но у неё есть пара ключевых фишек, которые делают это возможным уже сегодня.

В чём магия? Ключевые фишки Voyager

Если копнуть глубже, то прорывная технология Tencent стоит на нескольких китах.

Не просто видео, а RGB+D

Это, пожалуй, главный секрет. Voyager одновременно генерирует не только цветное видео (RGB), но и карту глубины для каждого кадра (Depth или просто D).

Что это даёт? Модель не просто фантазирует, как может выглядеть следующий кадр. Она понимает, какие объекты находятся ближе, а какие — дальше. Она осознаёт геометрию сцены.

Именно благодаря этому сгенерированное видео можно без какой-либо дополнительной обработки превратить в качественную 3D-модель с помощью технологии 3D Gaussian Splatting. Конкурентам для такого трюка нужно сначала сгенерировать видео, а потом отдельными инструментами пытаться восстановить из него 3D-сцену, что часто приводит к артефактам.

Бесконечный мир на ходу

Вторая киллер-фича — «исследование мира на большие расстояния». Чтобы мир не разваливался, когда камера улетает далеко от исходной точки, разработчики придумали механизм «кэша мира».

Говоря по-простому, модель помнит, что она уже сгенерировала, и достраивает новые части сцены, опираясь на существующие. Это позволяет создавать длинные, консистентные пролёты, а не короткие обрывки, где каждый второй объект забывает, как он выглядел секунду назад.

-2

Обучение без ручной разметки

Чтобы научить такую махину, нужна гора данных — видео с точной информацией о движении камеры и глубине сцены. Размечать такое вручную — адский труд.

Команда Tencent пошла другим путём. Они создали автоматический конвейер, который сам анализирует любое видео (из реального мира или Unreal Engine), оценивает в нём позы камеры и строит карту глубины. Так им удалось собрать датасет из более чем 100 000 видеофрагментов, не привлекая армию разметчиков. Элегантно.

Но главный вопрос: вся эта сложная технология действительно даёт лучший результат?

А оно лучше конкурентов?

Короткий ответ: да. Длинный ответ: да, и со значительным отрывом.

Разработчики не побоялись сравнить своё детище с другими открытыми решениями на нескольких бенчмарках.

1. Качество генерации видео. По стандартным метрикам (PSNR, SSIM, LPIPS), которые оценивают схожесть сгенерированных кадров с реальными, Voyager обошёл всех конкурентов, включая ViewCrafter и FlexWorld. Особенно это заметно на сложных сценах с большим движением камеры, где другие модели начинают «сыпаться» и генерировать артефакты.

2. Качество 3D-реконструкции. Здесь преимущество ещё заметнее. За счёт встроенной генерации карты глубины, 3D-сцены, восстановленные из видео Voyager, выглядят на порядок детальнее и точнее.

3. Комплексный бенчмарк WorldScore. Это вишенка на торте. WorldScore — это тест, который оценивает всё сразу: управляемость камеры, консистентность объектов, фотореалистичность и общее субъективное качество. И здесь HunyuanWorld-Voyager занял первое место с большим отрывом.

Хочу попробовать! Что нужно?

Самое приятное, что Tencent не просто похвастались, а выложили код и модели в открытый доступ. Правда, аппетиты у Voyager серьёзные

Минимальные системные требования — это NVIDIA GPU с 60 ГБ видеопамяти. Рекомендуемые — 80 ГБ.

Да, вы не ослышались. Для генерации видео в разрешении 540p нужен монстр уровня NVIDIA A100 или H100. Это сразу отсекает 99% домашних энтузиастов. С другой стороны, это и не инструмент для массового пользователя. Это заявка на лидерство в профессиональном сегменте: кино, спецэффекты, геймдев, архитектурная визуализация.

Разработчики также предусмотрели возможность распараллелить вычисления на несколько GPU с помощью фреймворка xDiT, что позволяет ускорить генерацию почти в 7 раз на кластере из восьми H20 GPU.

Для тех, кто всё же хочет потрогать технологию, есть Gradio-демо, которое можно запустить локально (если у вас есть подходящее железо).

-3

Куда движется индустрия?

Выход HunyuanWorld-Voyager — это не просто очередной релиз. Это маркер важного тренда: генеративные модели уходят от плоских картинок и видео к полноценным 3D-мирам.

  1. Стирание границ между 2D и 3D. Раньше создание 3D-сцены из фото было сложной многоэтапной задачей. Теперь этот процесс становится почти мгновенным. Это открывает невероятные возможности для быстрого прототипирования в играх, кино и VR.
  2. Геометрия — всему голова. Модели, которые просто дорисовывают пиксели, достигли своего потолка. Следующий прорыв — за теми, кто научится понимать и генерировать геометрию, как это делает Voyager. Консистентность и реализм напрямую зависят от этого.
  3. Автоматизация создания данных. Успех Voyager во многом обязан их «движку данных». Умение автоматически создавать гигантские, качественно размеченные датасеты становится ключевым конкурентным преимуществом. Кто владеет данными — владеет миром. Даже если эти данные созданы другой нейросетью.

Вердикт

HunyuanWorld-Voyager — это пока ещё не продукт для массового рынка. Это тяжёлая артиллерия для профессионалов, которая требует серьёзных вычислительных мощностей. Но как демонстрация технологий — это мощнейший ход.

Tencent показали, что гонка ИИ — это не только про большие языковые модели и чат-ботов. Битва за генерацию визуального контента переходит в третье измерение, и здесь у китайского гиганта есть все шансы стать лидером.

Пока мы ждём, когда подобные технологии станут доступны на потребительском железе, можно с уверенностью сказать одно: будущее, в котором виртуальные миры можно будет создавать по щелчку пальцев из одной фотографии, наступило чуть раньше, чем мы думали.

А что вы думаете? Это прорывная технология, которая изменит креативные индустрии, или просто ещё одна дорогая игрушка для корпораций? Делитесь мнением в комментариях!

Кстати, ещё больше разборов свежих AI-технологий и полезной информации из мира Python-разработки я публикую в своём Telegram-канале PythonTalk. А самые глубокие технические статьи лежат в моей базе знаний. Заглядывайте!