Вы уже слышали обширные похвалы от блогеров и новостных изданий о впечатляющем качестве видео, созданных нейросетью SORA. Теперь давайте рассмотрим то, о чем мало кто говорил: истинные цели OpenAI с этой моделью, связь между генерацией видео, автономными транспортными средствами и общим искусственным интеллектом (AGI), а также как все это связано с культовым фильмом «Матрица».
В середине февраля в области искусственного интеллекта произошло множество событий, однако все они ушли на второй план из-за демонстрации новой модели от OpenAI. На этот раз компания из Калифорнии поразила всех качественным прорывом в области генерации видео по текстовому запросу (text-2-video). В то время как другие исследователи старались улучшить количество пальцев на руках у сгенерированных людей до пяти (в то время как актёры боролись с этим), OpenAI решили сосредоточиться на создании коротких (до минуты), но высококачественных и детализированных видеороликов — и им это удалось!
О чем разговор?
OpenAI выделяется среди немногих компаний, способных представить технологию таким образом, что даже обычным пользователям, не имеющим опыта в области искусственного интеллекта, становится ясно: это что-то впечатляющее. Во многих релизах Google DeepMind или Facebook AI Research часто сложно разобраться, в то время как OpenAI умело передает важность своих достижений. Просто посмотрите на детализацию, физику мира, четкость изображения! Каждый кадр в этих видеороликах создан с нуля, без последующей обработки!
Те из вас, кто присоединился к хайпу после выпуска ChatGPT и начал следить за областью искусственного интеллекта, вероятно помнят забавные сцены с Уиллом Смитом, поглощающим спагетти. Этот сегмент стал символом прогресса в развитии моделей генерации видео за 11 месяцев, именно на нем сосредотачивают внимание блогеры при демонстрации достижений.
Разница, достигнутая в столь короткий срок, действительно впечатляет, но важно не путать факты: это не совсем честное сравнение. К тому же не стоит экстраполировать темп изменений в будущее. Модель, использованная в этом контексте, была опубликована исследователями Alibaba 19 марта 2023 года, а само видео появилось на Reddit 28 марта. Между этими датами компания Runaway представила новую модель Gen 2: оригинальное видео с демонстрацией доступно здесь, а ниже представлена серия полностью сгенерированных сцен.
Для чего же создана SORA?
На самом деле, модель OpenAI не была создана для замены актеров, дизайнеров или даже для мошенников, стремящихся подделать видеоотчеты от лица Германа Грефа. И нет, оживление мемов также не входит в список основных целей. SORA представляет собой попытку компании обучить нейронную сеть пониманию физического мира, его моделированию и симуляции объектов и действий людей — всё это в динамике, что отличает работу модели с видео от фотографий.
Цель такого симулятора — помочь в решении проблем, требующих взаимодействия с реальным миром. Не верите? Звучит слишком фантастично? Однако даже официальный блогпост OpenAI называется "Модели генерации видео как симуляторы мира"! В самом посте заканчивается следующей фразой:
Ключевые детали
Ключевые тезисы, которые мы выявили, подчеркивают важность моделей мира в контексте новой модели OpenAI:
- Модели мира помогают агенту принимать решение, учитывая информацию о возможном будущем.
- Для успешного предсказания будущего состояния важно понимать процессы, лежащие в основе формирования среды.
- Модели мира строят предсказания в понятном им мире преобразованных сигналов (латентное пространство).
- Реконструкция внутренней модели не будет идеальной.
- Бот, обученный в симулируемой моделью мира сцене, может проявлять навыки и в реальной среде.
- Масштабирование модели всегда приносит улучшения, хотя многие из них неочевидны и сложнопредсказуемы.
Теперь, когда мы разобрали концепцию моделей мира и их возможные применения, давайте рассмотрим примеры и постараемся понять, в чём заключается впечатляющий эффект модели SORA от OpenAI. Эта модель, так же как и GPT-4, разработала внутреннюю модель мира, которая помогает предсказывать следующий кадр в огромной разнообразной выборке видео. Рендеринг финального изображения представляет собой лишь реконструкцию того, что предсказывает модель, через призму декодера. Пример, который OpenAI решили продемонстрировать, это одноминутное видео FullHD @ 30 к/с, сгенерированное по текстовому запросу о женщине, идущей по улице Токио, озаренной неоновыми огнями. (было в начале статьи)
Ещё немного фишек от SORA
Одной из новых и, частично, неожиданных способностей модели является возможность создания видео с динамическим движением камеры. Это наблюдается в первом примере, где камера движется и вращается, а объекты на сцене перемещаются в трехмерном пространстве в соответствии с естественными ожиданиями. Я не могу не поделиться с вами этими захватывающими сценами.
Представьте, сколько аспектов приходится учитывать модели мира! Ведь нужно моделировать поведение агентов (в данном случае — людей) и учитывать множество взаимодействий для каждого кадра.
Можно ли на основе нейронки создать игру?
Вероятно, основной вопрос, который возникает у технически подкованных читателей, звучит так: "Почему нужно создавать модель мира с помощью нейронной сети, если можно просто использовать игровой движок и разработать игру?" Давайте проведем небольшую дискуссию и обсудим этот вопрос.
Разработка игр часто зависит от трех основных факторов: размера команды, бюджета и сроков. Самые затратные игры могут обойтись примерно в 300 миллионов долларов, и чаще всего выделяют игры от компании Rockstar, такие как серия GTA. Даже после показа трейлера GTA VI в интернете много внимания уделялось деталям: впечатляло, как песок на пляже прилипает к ногам, как реалистично распыляется спрей и даже присутствие ветра, который развевает волосы.
Ручная проработка игр сталкивается с проблемой масштабирования из-за ограниченного человеческого ресурса, в то время как модели мира, основанные на нейронных сетях, могут масштабироваться легче. Для создания игр требуется большое количество времени и труда для проработки множества деталей, включая физику различных объектов и поведение персонажей. Напротив, модели мира позволяют выучить полезные данные из имеющихся наборов данных и могут масштабироваться, добавляя более широкий спектр функций без значительного увеличения трудозатрат. Для обучения интерактивных агентов в реальном мире требуется огромное количество опыта, что может быть непрактичным из-за длительного времени и затрат на обучение. Поэтому модели мира, основанные на нейронных сетях, могут быть более эффективными и экономически целесообразными для обучения интерактивных агентов и создания симуляций.
Не всё так идельно!
Однако даже при моделировании простой игры возникают недочеты, и боты могут научиться эксплуатировать симуляцию. Одно из решений — это комбинирование виртуального и реального миров с постоянным итеративным дообучением на основе самых свежих данных. Когда алгоритм определяет, что его модель мира плохо предсказывает происходящее и совершает существенные ошибки, эти данные добавляются в обучающую выборку с высоким приоритетом. Это позволяет модели "удивляться" и корректировать неточности, наблюдая ситуации, подобные тем, что показаны в видео ниже.
В данном примере модель не всегда точно воспроизводит физику и сложные взаимодействия объектов, что приводит к несогласованности и ошибкам. Однако OpenAI делают анонс и демонстрируют результаты раннего исследования, чтобы начать обсуждение и получить обратную связь. Компания не планирует открыть доступ к модели широкой публике, проводя закрытое тестирование на безопасность и устойчивость генераций.
И что дальше?
OpenAI видит перспективы в масштабировании моделей генерации видео для разработки проработанных симуляторов физического и цифрового мира. Одно из направлений работы — это обучение текстовых моделей, используя данные из видео-моделей, для лучшего понимания взаимодействий объектов. Другое направление — это симуляция различных сценариев будущего на основе модели мира, что позволяет корректировать поведение модели. Однако, для таких симуляций требуется учет действий агента, что может потребовать дополнительных модулей и обработки данных.
Для обучения и применения моделей на масштабе всего YouTube требуется значительное количество ресурсов, прежде всего вычислительных. Недостаток видеокарт Nvidia может стать проблемой, и несмотря на желание масштабировать модели, они остаются тяжелыми для вычислений. Слухи о реорганизации индустрии производства полупроводников и чипов ведут к обсуждениям о необходимости привлечения огромных инвестиций.
В заключение
Мир движется к тому, что большинство специальностей канут в лету.
С появлением SORA забеспокоился и я, так как моя основная деятельность - это съемка и монтаж видео на свадьбы и для бизнеса.
Но вероятность того, что замещение человеческой силы произойдет в скором времени очень мала, поэтому можно немного расслабить булки.
Или нет?
Пишите ваши мысли на эту тему! Будет интересно почитать!
И обязательно подписывайтесь на мой канал!