Найти в Дзене
Нейрозона сегодня

Runway представила GWM-1: универсальную мировую модель

Компания Runway модернизировала модель Gen-4.5 и представила GWM-1, первую в своем роде универсальную мировую модель. В обновленной версии Gen-4.5 теперь есть встроенные функции генерации и редактирования звука, а также многокадровый монтаж, позволяющий вносить изменения в одну сцену, которые затем распространяются на всё видео. Новый GWM-1 создает внутреннее представление окружающей среды для моделирования будущих событий в реальном времени. Построенный на архитектуре Gen-4.5, он генерирует видео покадрово, обеспечивая интерактивное управление посредством таких входных данных, как движения камеры, команды робота или звук. Модель мира поставляется в трех версиях: GWM Worlds для создания исследуемых локаций, GWM Avatars для генерации говорящих персонажей с реалистичной мимикой и синхронизацией губ, и GWM Robotics для создания синтетических обучающих данных для роботов. Компания Runway планирует объединить эти возможности в единую унифицированную модель. Компания Runway - не единственная

Компания Runway модернизировала модель Gen-4.5 и представила GWM-1, первую в своем роде универсальную мировую модель.

В обновленной версии Gen-4.5 теперь есть встроенные функции генерации и редактирования звука, а также многокадровый монтаж, позволяющий вносить изменения в одну сцену, которые затем распространяются на всё видео.

Новый GWM-1 создает внутреннее представление окружающей среды для моделирования будущих событий в реальном времени. Построенный на архитектуре Gen-4.5, он генерирует видео покадрово, обеспечивая интерактивное управление посредством таких входных данных, как движения камеры, команды робота или звук.

Модель мира поставляется в трех версиях: GWM Worlds для создания исследуемых локаций, GWM Avatars для генерации говорящих персонажей с реалистичной мимикой и синхронизацией губ, и GWM Robotics для создания синтетических обучающих данных для роботов. Компания Runway планирует объединить эти возможности в единую унифицированную модель.

Компания Runway - не единственная, кто стремится внедрить эту технологию. Рынок становится все более конкурентным.

Другие лаборатории, включая Google DeepMind и новый стартап исследователя ИИ Яна Лекуна, также разрабатывают модели окружающего мира. В отрасли эти системы рассматриваются как важный шаг вперед по сравнению с традиционными языковыми моделями, которым не хватает понимания физического мира. Генеральный директор Google DeepMind Демис Хассабис подтвердил, что создание этих моделей является ключевым элементом стратегии компании по достижению общего искусственного интеллекта (AGI).

В гонке участвует и World Labs, стартап Фэй-Фэй Ли, привлекший 230 миллионов долларов для разработки «больших моделей мира» (LWM) с пространственным интеллектом. Компания недавно представила «Marble», прототип, способный создавать устойчивые 3D-среды на основе мультимодальных запросов. Мюнхенский стартап Spaitial разрабатывает пространственные базовые модели для генерации и интерпретации 3D-миров с согласованной физической динамикой.

Конкуренция растет. Стартапы Etched и Decart представили проект «Oasis» - систему, генерирующую играбельные 3D-миры в стиле Minecraft в реальном времени со скоростью 20 кадров в секунду. Она позволяет осуществлять базовые взаимодействия, но сталкивается с проблемами стабильности.

В августе китайский технологический гигант Tencent выпустил Hunyuan World Model 1.0 - модель генеративного искусственного интеллекта с открытым исходным кодом, создающую трехмерные виртуальные сцены на основе текстовых или графических подсказок.

Ну что ж, похоже, скоро роботы будут создавать миры лучше, чем мы, а мы будем сидеть и завидовать их безупречной логике и отсутствию экзистенциальных кризисов.