Найти в Дзене
Social Mebia Systems

Как мировые модели превращают нас в «создателей»

После того как 3D‑модель мира от Ли Фэйфэй прогремела на весь ИИ‑мир, в Китае появился первый бесплатный аналог — TencentHY WorldPlay, «Мировая модель 1.5» от команды Tencent 混元. Это первый в стране открытый для пользователей реальный world model: система, способная по тексту или картинке в реальном времени создавать трёхмерные миры, в которые можно буквально «зайти и поиграть». Что такое мировая модель В привычной нам генерации ИИ создаёт картинку или видео, которые можно только смотреть. Мировая модель идёт дальше: Проще говоря, вы становитесь «режиссёром и богом» мини‑вселенной: от американских горок и зимних гонок до ностальгической новогодней ночи 2000‑го или мечты о доме у моря. Технический прорыв за кулисами TencentHY WorldPlay не ограничивается «красивыми роликами». За эффектом присутствия стоят несколько ключевых идей: Да, система далека от идеала: в сложных сценах вроде «вид от первого лица + высокая скорость» мир иногда «застывает», детали расплываются, физика взрывов или в

После того как 3D‑модель мира от Ли Фэйфэй прогремела на весь ИИ‑мир, в Китае появился первый бесплатный аналог — TencentHY WorldPlay, «Мировая модель 1.5» от команды Tencent 混元.

Это первый в стране открытый для пользователей реальный world model: система, способная по тексту или картинке в реальном времени создавать трёхмерные миры, в которые можно буквально «зайти и поиграть».

Что такое мировая модель

В привычной нам генерации ИИ создаёт картинку или видео, которые можно только смотреть. Мировая модель идёт дальше:

  • по описанию или одной фотографии
  • она строит интерактивный 3D‑мир,
  • где вы передвигаетесь с помощью клавиатуры, мыши или геймпада,
  • а сцена остаётся геометрически согласованной при поворотах камеры и смене ракурса.

Проще говоря, вы становитесь «режиссёром и богом» мини‑вселенной: от американских горок и зимних гонок до ностальгической новогодней ночи 2000‑го или мечты о доме у моря.

Технический прорыв за кулисами

TencentHY WorldPlay не ограничивается «красивыми роликами». За эффектом присутствия стоят несколько ключевых идей:

  • Потоковая DiT‑архитектура: вместо того чтобы долго «додумывать» весь кадр, модель по сути работает как видеостриминг — получает сигналы управления и тут же выдаёт обновлённую картинку. Это даёт частоту до 24 FPS в 720p и делают управление почти беззадержочным.
  • Reconstituted Memory — восстановленная память: классические модели «забывают» сцену — вернувшись в «тот же» виртуальный зал, вы попадаете уже в другой. Новый механизм памяти заставляет модель помнить геометрию и свет так, чтобы мир оставался цельным хотя бы на протяжении минут.
  • Context Forcing: принудительное удержание контекста предыдущих кадров и объектов. Благодаря этому при поворотах камеры здания не «плывут», окна не исчезают, а люди и предметы сохраняют свои позиции.

Да, система далека от идеала: в сложных сценах вроде «вид от первого лица + высокая скорость» мир иногда «застывает», детали расплываются, физика взрывов или воды остаётся условной. Но для реального времени это уже качественный скачок вперёд.

От текста и картинок к живому миру

Пользовательские эксперименты показывают, насколько гибким становится такой инструмент:

  • Описание американских горок даёт почти телесное ощущение падения и скорости — с тщательно прорисованными руками, металлом, солнцем и ветром.
  • Остановка времени в моменте езды на снегоходе превращает сцену в «замороженный кадр», через который можно неторопливо бродить взглядом, исследуя снег, иней и рельеф.
  • Заданная атмосфера «миллениум‑перехода» с кассетами, толпой, старыми CRT‑телевизорами и фейерверками возвращает в эпоху, о которой у большинства не сохранилось ни одного реального видео.

Модель умеет не только начинать сцену с нуля, но и оживлять статичные произведения. Загрузка фрагмента «Тысячиликой реки и гор» превращает классическую китайскую живопись в прогулку по трёхмерному пейзажу, где можно буквально «войти» в картину. Искусство перестаёт быть только объектом созерцания и становится пространством для путешествий.

Отдельный уровень — реальное управление ходом событий текстом. Достаточно одной фразы — и меняется погода, наступает ночь, в небе вспыхивает взрыв. Переходы плавные, свет и тени перестраиваются естественно, мир ощущается живым, пусть местами и с изъянами физики.

От языкового к пространственному интеллекту

На фоне взлёта LLM легко забыть, что владение языком — ещё не понимание мира. Как отмечает Ли Фэйфэй, ключ человеческого интеллекта — не только в речи, а в понимании и управлении трёхмерным пространством.

Традиционные языковые модели не знают:

  • какова высота стола,
  • сколько поворотов от гостиной до кухни,
  • как разобьётся чашка при падении.

Мировые модели пытаются восполнить этот пробел: они учат ИИ не только «говорить о реальности», но и симулировать её динамику. Поэтому Google, Meta, OpenAI, Tencent и другие делают ставку на такие системы не как на «ещё один генератор красивых видео», а как на важный шаг к AGI.

Каждый — немного создатель

История Minecraft показала, что слабая графика не мешает игре стать мировым хитом, если она даёт главное — свободу создавать свой мир. Мировые модели делают следующий шаг: теперь не нужно вручную ставить каждый блок — достаточно описать идею.

TencentHY WorldPlay пока не идеален: ему не хватает глубины интеракции, стабильности деталей и реалистичной физики. Но уже сейчас он даёт вкус будущего, в котором любой человек сможет стать автором собственных вселенных, а ИИ — не только рассказчиком, но и архитектором миров.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/