11 подписчиков

Генерация 3D-миров. Прорыв от Nvidia и дроп от Tencent

16 апреля16 апр

2 мин

Главная проблема всех World Models до сегодняшнего дня была трогательной и человеческой — склероз. Нейросети страдали цифровой амнезией. Они смотрели на картинку, создавали мир, а через пару шагов забывали, где у них дверь, а где стена. Сцена начинала плыть, объекты меняли форму, и всё это напоминало последствия неудачного эксперимента с галлюциногенами.

Но Nvidia, как заботливая сиделка, решила

Но Nvidia, как заботливая сиделка, решила вылечить нейросети от забывчивости. Lyra 2.0 — это не просто очередная генерация 3D-миров. Это первая модель, которая помнит. Да-да, она запоминает 3D-геометрию между кадрами. Сопоставляет прошлые и новые точки пространства. И главное — сама исправляет ошибки.

То есть теперь, когда вы сгенерируете комнату, сделаете шаг влево, а потом вернётесь, диван не превратится в холодильник, а окно не уплывёт на потолок. Всё будет на своих местах. Стабильно, логично, скучно — как в реальной жизни. Но для симуляций и робототехники это именно то, что нужно.

А поскольку это опенсорс, делюсь ссылками:

Hugging Face здесь

GitHub здесь

В общем, рооботы, которых будут тренировать в таких симуляциях, наконец-то перестанут врезаться в стены, которых в прошлом кадре не было. А люди, которые боятся, что ИИ захватит мир, могут вздохнуть спокойно: пока нейросети только учатся не забывать, где они находятся. До мирового господства с памятью как у золотой рыбки было бы далековато. Теперь стало немного ближе. Но не будем о грустном.

А пока Nvidia хвасталась, что их Lyra 2.0 наконец-то научилась не забывать, где стоит виртуальный диван, Tencent тоже не стал отмалчиваться. Китайский гигант дропнул HY-World 2.0 — генератор 3D-моделей размером уже не в комнату, а в целый мир. Потому что если уж строить, то с размахом.

В чём разница? Lyra 2.0 от Nvidia берёт одну картинку и превращает её в стабильный 3D-мир. Точка. HY-World 2.0 от Tencent делает то же самое, но с текста, фото или видео. Закидываете что угодно — в один клик получаете модель, которую можно сразу вставить в Unity или Unreal Engine. И это не просто декорация. Мир интерактивный. Предметы там подчиняются физике. То есть если вы сгенерируете стакан и уроните его — он, вероятно, разобьётся. Или не разобьётся, если вы забили в промпт «нерушимый стакан».

Ссылки:

Hugging Face - здесь

GitHub - здесь.

И оба, конечно, говорят, что их решение перевернёт робототехнику, симуляции и геймдев. Истина, как всегда, где-то посередине.

Разработчики игр и симуляций сейчас, вероятно, сидят с круглыми глазами и трут руки. Потому что через полгода мы получим инструмент, который будет и помнить, и генерировать, и физику учитывать, и в Unity вставляться по щелчку. А пока можно только наблюдать, как нейросети учатся строить миры быстрее, чем люди успевают придумать, зачем им эти миры нужны.