4 подписчика

Игры больше не будут прежними: Нейросеть HY-World 2.0 от Tencent превращает одну фотографию в полноценный 3D-мир

3 мая3 мая

3 мин

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». Мы уже привыкли к нейросетям, которые генерируют видео по текстовому описанию. Системы вроде Genie3 рисуют нам красивые клипы с машинами на шоссе или бегущими персонажами. Но у них есть фундаментальный минус: как только короткий ролик заканчивается, этот сгенерированный мир просто исчезает. Вы не можете потрогать его, изменить угол обзора или продолжить исследование. Но что, если я скажу вам, что теперь ИИ может создать не просто видео, а реальную вселенную, в которую можно буквально «зайти»? Встречайте HY-World 2.0 — прорывную мировую модель от китайского технологического гиганта Tencent. Давайте заглянем под капот этой новинки и узнаем, как запустить ее на домашнем ПК. 🎮 От плоского кино к реальным 3D-ассетам HY-World 2.0 (или High 2.0) полностью переворачивает правила игры в индустрии генеративного ИИ. Это мультимодальный фреймворк, который не просто показывает вам красивую картинку, он строит полноценный мир. Вы д

Привет, энтузиасты технологий! На связи автор канала «YAinvest AI». Мы уже привыкли к нейросетям, которые генерируют видео по текстовому описанию. Системы вроде Genie3 рисуют нам красивые клипы с машинами на шоссе или бегущими персонажами. Но у них есть фундаментальный минус: как только короткий ролик заканчивается, этот сгенерированный мир просто исчезает. Вы не можете потрогать его, изменить угол обзора или продолжить исследование.

Но что, если я скажу вам, что теперь ИИ может создать не просто видео, а реальную вселенную, в которую можно буквально «зайти»? Встречайте HY-World 2.0 — прорывную мировую модель от китайского технологического гиганта Tencent. Давайте заглянем под капот этой новинки и узнаем, как запустить ее на домашнем ПК.

🎮 От плоского кино к реальным 3D-ассетам

HY-World 2.0 (или High 2.0) полностью переворачивает правила игры в индустрии генеративного ИИ. Это мультимодальный фреймворк, который не просто показывает вам красивую картинку, он строит полноценный мир.

Вы даете нейросети текст, одну фотографию или короткое видео с телефона, а она выдает настоящие 3D-ассеты: полигональные сетки (meshes), гауссовы сплэты и облака точек. Это значит, что вы можете выгрузить результат напрямую в игровые движки вроде Unity, Unreal Engine или в Blender и сохранить его навсегда. По словам тестировщиков, это разница между просмотром трейлера и реальным владением целым уровнем из игры.

⚡ Две суперспособности и всего 5.3 ГБ видеопамяти

У этой open-source модели есть две главные фишки:

Генерация мира: Вы даете ИИ описание или картинку, и он с нуля создает исследуемую 3D-сцену.
Реконструкция мира: Нейросеть берет ваши обычные фотографии и делает из них точный цифровой двойник. На выходе вы получаете не только готовую к рендерингу 3D-сцену за один проход, но и карту глубины (черно-белое изображение, показывающее расстояние до объектов), а также карту нормалей (цветная схема, помогающая правильно просчитать освещение, тени и отражения).

И самое приятное для энтузиастов! Хотя для изначальной настройки и тестов использовалась мощная видеокарта уровня RTX 6000 на 48 ГБ, во время работы через локальный веб-интерфейс Gradio потребление памяти при реконструкции сцены составило всего 5,3 ГБ VRAM. Это значит, что магия 3D-генерации доступна даже владельцам обычных игровых видеокарт!

⚙️ Как работает эта магия? Четыре шага к реальности

Архитектура модели оказалась на удивление элегантной и легкой. Весь процесс создания пространства разбит на четыре умных этапа:

Создание панорамы (High Pano2): ИИ берет ваш запрос или одиночное фото и расширяет его в бесшовную 360-градусную панораму.
Планирование пути (World Nav): Система не просто «замораживает» кадр — она интеллектуально прокладывает маршрут движения через эту сцену.
Расширение (World Stereo): Пока виртуальная камера «летит» по маршруту, нейросеть дорисовывает новые точки обзора, заполняя мир на лету и сохраняя полную согласованность деталей.
Сборка (World Mirror 2): Здесь все данные объединяются. Модель высчитывает глубину, параметры камеры и атрибуты 3D-гауссианов (миллионов крошечных цветных точек, формирующих реалистичный объем), выдавая в итоге высокоточную сцену, готовую к взаимодействию в реальном времени.

🚀 Подводим итоги

Хотя полный конвейер (pipeline) создания миров из текста все еще находится в стадии доработки, модуль реконструкции (World Mirror 2) уже отлично справляется с превращением обычных фото в пригодные для использования 3D-сцены. Это невероятно полезный инструмент с открытым исходным кодом для разработчиков игр, создателей фильмов и инженеров робототехники, строящих симуляционные среды. Эпоха одноразовых ИИ-видео уходит, уступая место постоянным и редактируемым 3D-мирам.

А сколько гигабайт видеопамяти в вашей видеокарте? Хватит ли 5,5 ГБ VRAM, чтобы развернуть такую 3D-студию прямо у себя дома? Делитесь своими характеристиками в комментариях — давайте обсудим!

И не забудьте подписаться на канал «YAinvest AI», чтобы первыми узнавать о том, как нейросети, локальное железо и технологии меняют нашу реальность. Дальше будет только интереснее!