Новинка OpenAI — и первая! — модель, генерирующая видео, Sora может совершать действительно впечатляющие кинематографические подвиги. Но эта модель даже более эффективна, чем изначально представлял OpenAI, по крайней мере, судя по техническому документу.
Статья под названием «Модели генерации видео как симуляторы мира», соавтором которой является множество исследователей OpenAI, приоткрывает завесу над ключевыми аспектами архитектуры Sora — например, раскрывая, что Sora может генерировать видео с произвольным разрешением и соотношением сторон ( до 1080p). Согласно документу, Сора может выполнять ряд задач по редактированию изображений и видео: от создания зацикленных видеороликов до продления видео вперед или назад во времени и изменения фона в существующем видео.
Но больше всего автора интригует способность Sora «моделировать цифровые миры», как выразились соавторы OpenAI. В ходе эксперимента OpenAI запустила Sora в Minecraft и заставила его визуализировать мир — и его динамику, включая физику — одновременно управляя игроком.
Так как же Sora смог это сделать? Что ж, как заметил старший исследователь Nvidia Джим Фан, Sora больше похожа на «физический движок, управляемый данными», чем на творческий подход. Это не просто создание одной фотографии или видео, но определение физики каждого объекта в окружающей среде и рендеринг фото или видео (или интерактивного 3D-мира, в зависимости от обстоятельств) на основе этих вычислений.
«Эти возможности предполагают, что дальнейшее масштабирование видеомоделей — это многообещающий путь к разработке высокофункциональных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут внутри них», — пишут соавторы.
Теперь обычные ограничения Sora применяются и в области видеоигр. Модель не может точно аппроксимировать физику основных взаимодействий, таких как разбитие стекла. И даже при моделировании взаимодействий Sora часто непоследовательна — например, изображает человека, который ест гамбургер, но не может отобразить следы укусов.
Тем не менее, если я правильно читаю статью, кажется, что Sora может проложить путь к более реалистичным — возможно, даже фотореалистичным — процедурно генерируемым играм. Это в равной степени захватывающе и пугающе (например, примите во внимание последствия дипфейка) — вероятно, именно поэтому OpenAI на данный момент решила ограничить Сора программой очень ограниченного доступа.
Мы надеемся, что рано или поздно мы узнаем больше.