Пока все обсуждают, как нейросети генерируют короткие видео по тексту, Tencent молча сделала следующий шаг. Они выкатили HunyuanWorld-Voyager — модель, которая берёт одну-единственную картинку и разворачивает её в полноценный, консистентный 3D-мир, по которому можно «пролететь» камерой.
Это уже не просто генерация ролика. Это создание исследуемого пространства. Sora и аналоги могут делать красивые, но линейные клипы. Voyager же строит сцену с пониманием геометрии. Чувствуете разницу?
Давайте разберёмся, что за магия тут под капотом и почему это может быть важнее, чем очередная модель для генерации мемов с котиками
Что это вообще такое?
Всё гениальное просто. Вы даёте нейросети одну статичную картинку — например, фото горного пейзажа. Затем задаёте траекторию движения камеры: вперёд, влево, разворот. А на выходе получаете видео, как будто вы летите на дроне сквозь эту сцену.
Но ключевое отличие от всех предыдущих «оживляторов фото» — Voyager не просто дорисовывает кадры. Он строит внутреннее представление сцены в виде 3D-облака точек. Именно поэтому «прогулка» получается такой реалистичной и бесшовной: объекты не плывут, перспектива не ломается, а мир сохраняет свою целостность.
Звучит как технология из будущего? Но у неё есть пара ключевых фишек, которые делают это возможным уже сегодня.
В чём магия? Ключевые фишки Voyager
Если копнуть глубже, то прорывная технология Tencent стоит на нескольких китах.
Не просто видео, а RGB+D
Это, пожалуй, главный секрет. Voyager одновременно генерирует не только цветное видео (RGB), но и карту глубины для каждого кадра (Depth или просто D).
Что это даёт? Модель не просто фантазирует, как может выглядеть следующий кадр. Она понимает, какие объекты находятся ближе, а какие — дальше. Она осознаёт геометрию сцены.
Именно благодаря этому сгенерированное видео можно без какой-либо дополнительной обработки превратить в качественную 3D-модель с помощью технологии 3D Gaussian Splatting. Конкурентам для такого трюка нужно сначала сгенерировать видео, а потом отдельными инструментами пытаться восстановить из него 3D-сцену, что часто приводит к артефактам.
Бесконечный мир на ходу
Вторая киллер-фича — «исследование мира на большие расстояния». Чтобы мир не разваливался, когда камера улетает далеко от исходной точки, разработчики придумали механизм «кэша мира».
Говоря по-простому, модель помнит, что она уже сгенерировала, и достраивает новые части сцены, опираясь на существующие. Это позволяет создавать длинные, консистентные пролёты, а не короткие обрывки, где каждый второй объект забывает, как он выглядел секунду назад.
Обучение без ручной разметки
Чтобы научить такую махину, нужна гора данных — видео с точной информацией о движении камеры и глубине сцены. Размечать такое вручную — адский труд.
Команда Tencent пошла другим путём. Они создали автоматический конвейер, который сам анализирует любое видео (из реального мира или Unreal Engine), оценивает в нём позы камеры и строит карту глубины. Так им удалось собрать датасет из более чем 100 000 видеофрагментов, не привлекая армию разметчиков. Элегантно.
Но главный вопрос: вся эта сложная технология действительно даёт лучший результат?
А оно лучше конкурентов?
Короткий ответ: да. Длинный ответ: да, и со значительным отрывом.
Разработчики не побоялись сравнить своё детище с другими открытыми решениями на нескольких бенчмарках.
1. Качество генерации видео. По стандартным метрикам (PSNR, SSIM, LPIPS), которые оценивают схожесть сгенерированных кадров с реальными, Voyager обошёл всех конкурентов, включая ViewCrafter и FlexWorld. Особенно это заметно на сложных сценах с большим движением камеры, где другие модели начинают «сыпаться» и генерировать артефакты.
2. Качество 3D-реконструкции. Здесь преимущество ещё заметнее. За счёт встроенной генерации карты глубины, 3D-сцены, восстановленные из видео Voyager, выглядят на порядок детальнее и точнее.
3. Комплексный бенчмарк WorldScore. Это вишенка на торте. WorldScore — это тест, который оценивает всё сразу: управляемость камеры, консистентность объектов, фотореалистичность и общее субъективное качество. И здесь HunyuanWorld-Voyager занял первое место с большим отрывом.
Хочу попробовать! Что нужно?
Самое приятное, что Tencent не просто похвастались, а выложили код и модели в открытый доступ. Правда, аппетиты у Voyager серьёзные
Минимальные системные требования — это NVIDIA GPU с 60 ГБ видеопамяти. Рекомендуемые — 80 ГБ.
Да, вы не ослышались. Для генерации видео в разрешении 540p нужен монстр уровня NVIDIA A100 или H100. Это сразу отсекает 99% домашних энтузиастов. С другой стороны, это и не инструмент для массового пользователя. Это заявка на лидерство в профессиональном сегменте: кино, спецэффекты, геймдев, архитектурная визуализация.
Разработчики также предусмотрели возможность распараллелить вычисления на несколько GPU с помощью фреймворка xDiT, что позволяет ускорить генерацию почти в 7 раз на кластере из восьми H20 GPU.
Для тех, кто всё же хочет потрогать технологию, есть Gradio-демо, которое можно запустить локально (если у вас есть подходящее железо).
Куда движется индустрия?
Выход HunyuanWorld-Voyager — это не просто очередной релиз. Это маркер важного тренда: генеративные модели уходят от плоских картинок и видео к полноценным 3D-мирам.
- Стирание границ между 2D и 3D. Раньше создание 3D-сцены из фото было сложной многоэтапной задачей. Теперь этот процесс становится почти мгновенным. Это открывает невероятные возможности для быстрого прототипирования в играх, кино и VR.
- Геометрия — всему голова. Модели, которые просто дорисовывают пиксели, достигли своего потолка. Следующий прорыв — за теми, кто научится понимать и генерировать геометрию, как это делает Voyager. Консистентность и реализм напрямую зависят от этого.
- Автоматизация создания данных. Успех Voyager во многом обязан их «движку данных». Умение автоматически создавать гигантские, качественно размеченные датасеты становится ключевым конкурентным преимуществом. Кто владеет данными — владеет миром. Даже если эти данные созданы другой нейросетью.
Вердикт
HunyuanWorld-Voyager — это пока ещё не продукт для массового рынка. Это тяжёлая артиллерия для профессионалов, которая требует серьёзных вычислительных мощностей. Но как демонстрация технологий — это мощнейший ход.
Tencent показали, что гонка ИИ — это не только про большие языковые модели и чат-ботов. Битва за генерацию визуального контента переходит в третье измерение, и здесь у китайского гиганта есть все шансы стать лидером.
Пока мы ждём, когда подобные технологии станут доступны на потребительском железе, можно с уверенностью сказать одно: будущее, в котором виртуальные миры можно будет создавать по щелчку пальцев из одной фотографии, наступило чуть раньше, чем мы думали.
А что вы думаете? Это прорывная технология, которая изменит креативные индустрии, или просто ещё одна дорогая игрушка для корпораций? Делитесь мнением в комментариях!
Кстати, ещё больше разборов свежих AI-технологий и полезной информации из мира Python-разработки я публикую в своём Telegram-канале PythonTalk. А самые глубокие технические статьи лежат в моей базе знаний. Заглядывайте!