Найти в Дзене
RixAI

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Оглавление
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT
Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Пока все блогеры восторгаются невероятным качеством видеороликов от нейросети SORA, мы разберём то, о чём молчат остальные: какую настоящую цель преследует OpenAI с этой моделью, как генерация видео связана с беспилотниками и AGI, и причём здесь легендарная «Матрица». Ложки действительно нет, Нео! Вернее, она существует — но только в виртуальной реальности, сгенерированной искусственным интеллектом...

Что произошло и почему все сошли с ума

В середине февраля AI-сообщество взорвалось от множества новостей, но всё это померкло перед демонстрацией свежей разработки OpenAI. Калифорнийская корпорация удивила рынок качественным прорывом в сфере text-to-video генерации. В то время как конкуренты бились над правильным количеством пальцев у сгенерированных персонажей (а актёрская гильдия активно протестовала), команда OpenAI решила замахнуться на короткие минутные ролики с высокой детализацией — и у них это получилось!

Небольшой контекст для понимания масштаба

OpenAI — одни из немногих, кто умеет подавать технологические решения так, что даже люди далёкие от AI сразу понимают: произошло нечто значимое. Во многих релизах Google DeepMind или Facebook AI Research разобраться непросто, а здесь достаточно посмотреть — и челюсть опускается сама собой. Просто обратите внимание на детализацию, физику мира, чёткость изображения! Каждый кадр создан с нуля, и никакой постобработки!

Те, кто начал следить за сферой AI после выхода ChatGPT, наверняка помнят забавные генерации с Уиллом Смитом и спагетти. Именно этим примером многие демонстрируют прогресс моделей генерации видео за одиннадцать месяцев.

Разница за такой короткий период действительно впечатляет, однако не стоит обманываться: это не совсем корректное сравнение. И тем более не нужно экстраполировать такой темп развития на будущее. Модель, которую использовали изначально, была опубликована исследователями AliBaba 19 марта 2023, а ролик появился на Reddit 28 марта — именно между этими датами компания Runway представила новую модель Gen 2. Оригинальная демонстрация и пакет полностью сгенерированных сцен показывали заметный потенциал — не голливудский уровень, конечно, но уже нечто существенное.

Именно от этой точки разумно оценивать прогресс — так мы избежим ловушки низкого старта. Получается, результат появился раньше, и качество было значительно выше — удивительно, как часто кто-то в интернете оказывается неправ...

Первая когнитивная ловушка устранена, но их ещё много

Теперь к сути: модель OpenAI создавалась не для замены актёров, специалистов по компьютерной графике и даже не для мошенников из службы безопасности банков, мечтающих позвонить вам по видеосвязи от имени руководства. Нет, оживление мемов тоже не входит в список приоритетных задач.

SORA — это попытка компании научить нейросеть понимать физический мир, моделировать его, а также симулировать объекты и действия людей. Причём всё это — в динамике, что отличает работу с видео от статичных фотографий. Предназначение такого симулятора — помочь решить задачи, требующие взаимодействия с реальным миром.

Звучит фантастично? Но даже официальный пост в блоге OpenAI называется «модели генерации видео как симуляторы мира». Сам материал завершается фразой о том, что понимание и симуляция мира являются критически важными вехами на пути к созданию Artificial General Intelligence (AGI, сильный искусственный интеллект), что остаётся главной целью компании. Причём эта цель не менялась с 2015 года — тогда некоторые учёные даже насмехались над такой постановкой задачи, поскольку об AGI было не принято говорить всерьёз.

Звучит немного антиутопично, согласны? В «Матрице» тоже симулировали человеческий мир, объекты в нём, различные взаимодействия. Но зачем это OpenAI — неужели не хватает энергии для серверов, и нужно разработать биологическую батарейку?

Основная причина — уверенность в том, что понимание и симуляция мира критически важны для создания AGI. И всё же, где связь? Как генерация видео может помочь? Существуют ли подтверждения — биологические или искусственные — что симуляции работают? Насколько они связаны с реальным миром? Можно ли научиться чему-то, летая в мечтах?

Что такое модели мира и зачем они нужны

Мозг развитого примата устроен сложно. Необходимо выполнять огромный объём работы при минимальных энергозатратах. Чтобы справиться с колоссальным потоком информации, проходящей через нас ежедневно, мозг анализирует данные и выявляет закономерности. В результате люди вырабатывают ментальную модель мира — своего рода объяснение того, как он устроен и как должен реагировать на взаимодействие.

Решения и действия, которые мы принимаем, в той или иной мере основаны на этой внутренней модели. Но что гораздо важнее — существуют доказательства, что наше восприятие в значительной степени определяется будущим, предсказанным нашей внутренней моделью. Мозг работает как предиктор.

Рассмотрим простой пример: бейсбол. У отбивающего есть 350-400 миллисекунд с момента подачи, чтобы отбить мяч — чуть больше времени моргания! Причина, по которой человек вообще способен среагировать на мяч, брошенный с расстояния 18 метров со скоростью 160 км/ч, связана с нашей способностью инстинктивно предсказывать, куда и когда он прилетит. У профессиональных игроков всё происходит подсознательно. Их мышцы срабатывают рефлекторно, позволяя бите оказаться в нужном месте и в нужное время согласно предсказанию модели мира — потому что времени на осознанное планирование просто нет.

Итак, модель мира — это выработанное внутреннее представление процессов окружающей среды, используемое агентом для моделирования последствий действий и будущих событий. Агентом называется сущность, способная воспринимать окружение и воздействовать на него для достижения целей — человек или кот подпадают под это определение. Для домашнего питомца «утро + громкое мяуканье = хозяин покормит» — вполне себе выученное правило среды существования.

В 1976 году британский статистик Джордж Бокс написал знаменитую фразу: «Все модели неправильны, но некоторые из них полезны». Он имел в виду, что нужно фокусироваться на практической пользе моделей, а не бесконечно спорить о том, является ли модель точной. Наш мозг часто «лагает» и неправильно предсказывает, казалось бы, очевидные вещи. Даже в физике учёные до сих пор не могут описать единую Теорию Всего.

Как машины учатся понимать мир

Несколько лет назад исследователи из группы World Models обучили нейросеть управлять гоночным автомобилем в игре, используя инновационный подход. Вместо того чтобы напрямую связывать изображение с экрана с действиями (поворот руля, педали), они создали промежуточную модель мира.

Процесс выглядел так: сначала нейросеть наблюдала за игрой, запоминая последовательности кадров и действий. Затем она училась предсказывать, как изменится картинка после конкретного действия. По сути, машина создавала внутреннюю симуляцию игрового мира.

Только после этого обучали контроллер, который принимал решения. Но ключевой момент: контроллер работал не с реальным изображением, а с компактным представлением мира — так называемым латентным пространством. Это примерно как если бы вы водили машину не глядя напрямую на дорогу, а основываясь на внутреннем понимании ситуации.

Результаты оказались впечатляющими. Модель не просто училась проходить конкретные треки — она понимала физику игрового мира достаточно хорошо, чтобы справляться с новыми, незнакомыми ситуациями.

От игрушек к реальности: беспилотники и роботы

Если модели мира работают в простых симуляциях, возникает логичный вопрос: можно ли применить это к реальному миру? Оказывается, можно.

Компания Tesla использует похожий подход в своих беспилотных автомобилях. Вместо программирования жёстких правил («если видишь красный свет — тормози»), они обучают нейросеть на миллионах часов реальной езды. Система строит внутреннюю модель того, как ведут себя дорога, машины, пешеходы.

Критически важный момент: обучение происходит на видео, а не на статичных картинках. Видео содержит временную составляющую — как объекты движутся, как меняется ситуация. Это принципиально отличается от распознавания объектов на фотографиях.

NVIDIA разработала технологию Neural Reconstruction, которая создаёт симулятор окружения для обучения роботов-погрузчиков. Роботы тренируются в виртуальной версии склада, которая выглядит и ведёт себя как настоящая. Затем навыки переносятся в реальный мир.

Boston Dynamics применяет модели мира для своих роботов Atlas и Spot. Роботы постоянно симулируют будущее: что произойдёт, если шагнуть вот так? А если перенести вес иначе? Это позволяет им удерживать равновесие на сложных поверхностях.

Почему видео — это не просто картинки

Многие думают: если нейросеть умеет работать с изображениями, видео — это просто много изображений подряд. Но это фундаментально неверно.

Видео содержит временную информацию. Оно показывает, как объекты взаимодействуют, как действия приводят к последствиям. Если вы видите человека, тянущегося к чашке на фото — вы не знаете, возьмёт ли он её. На видео вы видите результат действия.

Именно поэтому OpenAI сделали ставку на генерацию видео для SORA. Обучая модель предсказывать следующие кадры видео, они заставляют её выучить физику мира — гравитацию, инерцию, причинно-следственные связи.

Посмотрите на демонстрации SORA: модель понимает, что когда человек идёт по снегу, остаются следы. Что вода в стакане плещется при движении. Что свет отражается от поверхностей реалистично. Всё это — следствие выученной модели физического мира.

От видеоигр к симуляции реальности

Исследователи из NVIDIA пошли дальше. Они научили нейросеть играть в классическую игру DOOM, но с удивительным поворотом: модель генерирует игру на ходу, а не запускает готовый код.

По сути, нейросеть посмотрела много часов игрового процесса и выучила правила мира DOOM настолько хорошо, что может его симулировать. Когда игрок нажимает кнопку движения, модель предсказывает, как должен измениться кадр. Когда стреляет — генерирует анимацию выстрела и реакцию врагов.

Качество такой симуляции пока уступает оригиналу, но концепция революционна. Вместо программирования игровых движков можно обучать модели, которые понимают правила мира и генерируют его динамически.

А что если масштабировать этот подход? Что если обучить достаточно большую модель на всём видео из интернета — миллиардах часов записей реального мира? Теоретически, такая модель могла бы выучить фундаментальные законы физики, социальные взаимодействия, причинно-следственные связи.

Именно в этом направлении движется OpenAI с SORA.

Связь с языковыми моделями и AGI

Здесь мы подходим к самой интересной части. Как генерация видео связана с ChatGPT и созданием AGI?

Современные языковые модели вроде GPT-4 умеют рассуждать, писать код, решать задачи. Но у них есть фундаментальное ограничение: они понимают мир только через текст. У них нет интуитивного понимания физической реальности.

Представьте, что вы всю жизнь прожили в изолированной комнате, общаясь с миром только через текстовые сообщения. Вы могли бы много знать о мире теоретически, но не понимали бы на интуитивном уровне, как вещи работают физически.

OpenAI работает над интеграцией видео-моделей с языковыми. Идея в том, чтобы создать систему, которая:

  • Понимает текстовые инструкции (как GPT)
  • Имеет интуитивное понимание физического мира (как SORA)
  • Может планировать и выполнять действия в реальности

Технически это достижимо через мультимодальное обучение — когда одна нейросеть одновременно работает и с текстом, и с видео. Предсказательный механизм становится общим, а энкодеры и декодеры специализированными для каждого типа данных.

Симуляция как инструмент планирования

Но есть ещё один уровень применения моделей мира — активная симуляция будущего для принятия решений.

Представьте, что перед тем как принять решение, AI может мысленно проиграть несколько вариантов развития событий. Как шахматист, просчитывающий ходы наперёд, только для задач в физическом мире.

Робот, решающий, как взять хрупкий объект, может симулировать разные траектории движения руки и выбрать оптимальную. Беспилотник, столкнувшийся с нештатной ситуацией, может быстро проиграть варианты реакции и выбрать самый безопасный.

Google DeepMind недавно представили модель Genie, которая делает именно это — создаёт интерактивные симулируемые окружения. Система принимает кадр и действие, предсказывает, как изменится мир. Они тестировали это на роботизированной руке, работающей с реальными объектами.

Критически важно: симуляция происходит в латентном пространстве — компактном внутреннем представлении. Это быстро и не требует идеальной визуальной точности. Главное — правильно понимать физику и последствия действий.

Проблема вычислительных ресурсов

Здесь мы сталкиваемся с серьёзным ограничением. Обучение и использование таких моделей требует колоссальных вычислительных мощностей.

По слухам, SORA требует около часа вычислений для генерации минутного FullHD ролика. Это подтверждается косвенно: когда команда OpenAI генерировала видео по запросам в Twitter, минимальное время от твита до результата составило 23 минуты — и это для 20-секундного ролика.

Масштабирование на всё видео интернета для обучения потребует ресурсов, которых может просто не хватить. Уже сейчас ведущие AI-компании сталкиваются с дефицитом: видеокарт NVIDIA не хватает на всех, список закупок заполнен на год вперёд.

Именно поэтому начали появляться слухи о планах Сэма Альтмана привлечь инвестиции на реорганизацию индустрии производства полупроводников. Речь идёт о суммах от 5 до 7 триллионов долларов — это 4-5% мирового ВВП. Капитализация самой дорогой компании мира, Microsoft, составляет 3 триллиона.

Лично я не верю в такие суммы, но порядок двух-трёх триллионов инвестиций на горизонте десятилетия кажется посильным. Запускать Матрицу для симуляции мира — дело действительно недешёвое.

Зачем OpenAI показали SORA публично

Многие удивились, что OpenAI демонстрируют технологию, не предоставляя доступа. Обычно компания выпускает продукты, которыми можно сразу пользоваться. Здесь же — только демонстрация возможностей.

Официальная причина: «дать представление о возможностях AI, которые ожидают нас в будущем, и начать диалог с людьми за пределами OpenAI».

Но есть и прагматичные причины. Во-первых, OpenAI в очередной раз продемонстрировали превосходство над конкурентами. Сравните генерации других моделей (открытых и закрытых) по тем же промптам — даже близко не стоят рядом.

Во-вторых, компания запустила закрытое тестирование на предмет безопасности и смещений в генерациях. Лучше выявить проблемы до широкого релиза, чем после.

Что дальше: спекуляции и прогнозы

OpenAI неоднократно подчеркивают: продолжение масштабирования моделей генерации видео является многообещающим путём к разработке детализированных симуляторов физического и цифрового мира, а также объектов и людей в них.

Первое направление — обучение следующего поколения GPT поверх или совместно с видео-моделью. Тогда языковая модель получит доступ к латентному пространству, характеризующему состояние мира и механики взаимодействий. Это даст своего рода интуицию о физической реальности, которая повлияет на способность к рассуждениям с дальним горизонтом планирования.

Именно это — одна из основных проблем современных LLM. Они могут выполнить простую задачу, но не могут взять целый проект, декомпозировать его, распланировать и выполнить.

Второе направление — непосредственная симуляция, когда модель при генерации берёт паузу и проигрывает несколько вариантов развития событий. Происходить это будет в пространстве латентов — как мы размышляем в голове о последствиях действий. На основе анализа десятков-сотен симуляций можно скорректировать поведение агента.

Вероятно, первые эксперименты пройдут в рамках компьютерных игр. Не зря же OpenAI в прошлом году приобрели компанию, разрабатывавшую аналог Minecraft с упором на социальные взаимодействия. Тем более у них есть опыт — ещё до GPT-1 они экспериментировали с DotA 2, где команда ботов дважды обыграла чемпионов мира.

Недостающий элемент: понимание действий

У SORA пока нет одной важной детали: возможности учитывать действия агента. Модель предсказывает, что произойдёт в видео дальше, но не может учесть, что будет, если кто-то вмешается и сделает конкретное действие.

Если из одного кадра гонки делать поворот налево или направо — будущее будет разным. Нужен модуль, который угадывает, что происходит между кадрами — какие действия привели к изменениям.

У OpenAI есть опыт подобной работы — летом 2022 они обучали нейросеть играть в Minecraft по видео с YouTube. Отдельная модель предсказывала действия игрока по изменениям на экране.

На видео общего характера такой подход применить сложнее. Какое действие совершается при завязывании галстука? На записи футбольного матча? Возможно, ответ традиционный: дать достаточно данных машине, и она разберётся сама.

Конкуренция не дремлет

Пока писался этот материал, Google DeepMind выпустили статью о модели Genie, предназначенной для генерируемых интерактивных окружений. Система принимает кадр и действие, предсказывает, как изменится мир.

И, конечно, тестируется на настоящей роботизированной руке. Обратите внимание на реалистичную деформацию пакета чипсов в демонстрации — это полностью сгенерировано моделью мира. Контроллер робо-руки может симулировать будущее многократно для более аккуратного обращения с объектами.

Матрица становится реальностью

Как спайс занимает центральное место в мире Дюны, так вычислительные мощности играют ключевую роль для AI — наравне с данными.

Если Сэм Альтман продолжит двигаться такими темпами — проблема моего досуга на ближайшие несколько лет решена. Придётся писать объёмные материалы с объяснением того, каким именно образом свежие нейросети собираются изменить наш мир на этой неделе.

Одно можно сказать точно: симуляция мира — это не просто инструмент для создания красивых роликов. Это фундаментальная технология на пути к созданию AGI. Системы, которые действительно понимают физическую реальность, могут планировать и действовать в ней.

Ложки действительно может не быть — но виртуальная реальность, которую создаёт AI, может оказаться неотличимой от настоящей. И это уже не фантастика, а вопрос времени и вычислительных ресурсов.