Найти в Дзене
Владислав Сарамуд

Физика внутри ИИ: как «мировые модели» учат роботов действовать

Физика внутри ИИ: как «мировые модели» учат роботов действовать Что общего между Veo 3, Kling и физикой для роботов? Современные видеогенераторы учатся предсказывать, что будет в следующем кадре. Это по сути мини-симулятор мира: модель впитывает «здравый смысл» о движении, столкновениях, освещении — то есть простую физику. У OpenAI это прямо описывают как «мировую симуляцию»; Google подчёркивает «реализм и физику» в Veo 3; Kuaishou у Kling заявляет правдоподобные физические сцены. Видеомодель → учится динамике мира → умеет предсказывать последствия действий. Отсюда два пути: через зепу для людей — красивый ролик (Veo, Kling и др.); для машин — внутренний «мозг мира» для планирования и обучения роботов. И тут появился NVIDIA Cosmos это набор «мировых моделей», которые учат машины видеть сцену, понимать, что в ней произойдёт дальше, и планировать действия. ➡️При чем тут роботы? Cosmos Reason — «глаза+мозг»: модель, которая смотрит на видео/камеру, отвечает на вопросы и предлагает

Физика внутри ИИ: как «мировые модели» учат роботов действовать

Что общего между Veo 3, Kling и физикой для роботов?

Современные видеогенераторы учатся предсказывать, что будет в следующем кадре.

Это по сути мини-симулятор мира: модель впитывает «здравый смысл» о движении, столкновениях, освещении — то есть простую физику.

У OpenAI это прямо описывают как «мировую симуляцию»;

Google подчёркивает «реализм и физику» в Veo 3;

Kuaishou у Kling заявляет правдоподобные физические сцены.

Видеомодель → учится динамике мира → умеет предсказывать последствия действий.

Отсюда два пути:

через зепу для людей — красивый ролик (Veo, Kling и др.);

для машин — внутренний «мозг мира» для планирования и обучения роботов.

И тут появился NVIDIA Cosmos это набор «мировых моделей», которые учат машины видеть сцену, понимать, что в ней произойдёт дальше, и планировать действия.

➡️При чем тут роботы?

Cosmos Reason — «глаза+мозг»: модель, которая смотрит на видео/камеру, отвечает на вопросы и предлагает следующий шаг

Cosmos Predict (включая Predict2) — «пророк»: моделирует будущее состояние сцены как видео (куда покатится мяч, как качнётся дверь) и помогает роботу не лезть «в плохие варианты».

Cosmos Transfer — «смена условий»: меняет освещение, погоду, фон — чтобы натренировать робота быть стойким к реальным сюрпризам.

В связке с Omniverse / Isaac: собираете сцену (склад, лестница, улица), прогоняете сценарии и обучаете своего 4-ех лапого друга

Чтобы пёс (или манипулятор, или машинка) видели, понимали и планировали: «куда поставить лапу», «как обойти лужу», «что делать, если человек изменил траекторию».

Cosmos даёт общий «мозг мира» и дешёвую фабрику «синтетики» для понимания под задачи конкретного робота.

Куда катится мир? 🚀

🤖Saramudvlad | забустить 🤖

Физики
7453 интересуются