Посмотрите внимательно на эти картинки. Сможете определить, где тут генерация нейросети? Хм, правильный ответ — это всё генерация SORA.
Итак, OpenAI, создатели ChatGPT, снова нас удивили, представив как гром среди ясного неба новую нейросеть SORA. Причём она нужна для генерации видео. И знаете что? Это настоящая техно-революция в создании видео, без прекрас и преувеличений. Всё, что вам нужно, это написать пару слов, и SORA сделает вам ролик в любой тематике.
И такой продукт просто не может быть скучным. У Соры необычный подход к генерации видео, гиперреализм и совершенно новые смыслы, которые она открывает перед нами. Сегодня мы попробуем разобраться, что под капотом у новой нейронки, какие возможности у нее есть и как SORA навсегда может изменить мир внезапно в видеоигр. Интересно?
Для начала давайте разберемся, что это такое. Во-первых, название. SORA в переводе с японского означает небо. Образ, вызывающий в памяти человека безграничный творческий потенциал. Красиво, не так ли?
В своем техническом отчете OpenAI называет SORA универсальной моделью визуальных данных. Для начала, в немногом отчасти. Модели нейросетей бывают разных видов. Генеративно-состязательные, когда две нейронки борются друг с другом для лучшего качества. Или рекуррентные сети, которые умеют обрабатывать серии событий во времени и делать из них последовательные пространственные цепочки. А есть диффузионные модели, они буквально умеют создавать из ничего что-то.
SORA именно такая диффузионная модель, так же как Dali 3 или MidJourney. Но как вообще работает такая модель? Если совсем просто, простите, господа технари, то процесс обучения модели происходит следующим образом. Нейросети дают любую картинку, например, вот такого пёселя. Затем нейросеть просят добавлять белый шум картинки, пока она не превратится в пиксельную кашу, а потом просят воссоздать оригинальную картинку обратно.
И всё это может происходить миллионы раз. По итогу мы получаем диффузионную модель, которая может создавать из ничего нечто. Справедливости ради, SORA тут не первопроходец. Есть множество диффузионных нейросетей, которые умеют создавать видео из текстового промпта. Однако у SORA есть супер преимущество. Она умеет создавать видео сразу в высоком разрешении и длительностью до минуты, при этом не нарушая логику происходящего. И тут появляются они.
Как написано в техническом отчете, OpenAI вдохновлялись языковыми моделями по типу ChatGPT. В то время как у разных больших языковых моделей или LLM есть текстовые токены, у SORA есть визуальные пространственно-временные патчи, с помощью которых ее тренировали. Хотя технический отчет несколько абстрактный в этом плане.
Итак, берётся исходный ролик и раскладывается на множество небольших фрагментов пространства и времени. Это и есть патчи, то есть видео перекодируется в информационный куб.
Затем SORA обучается именно на таких кубиках учась создавать видео именно с помощью пространственно-временных патчей. В SORA загружают грязные патчи, шумные картинки вместе с текстовым промптом. Далее она должна предсказать оригинальный чистый патч. С помощью специального декодера патчи превращаются обратно в картинку. Наконец, SORA объединяет два подхода — диффузионную модель и патчи.
Патчи зашумляются с помощью диффузии, а SORA прогнозирует, как вывести чистый патч для практически идеального результата. Кстати, это не просто генерация какого-то видеоряда. SORA понимает, где находятся объекты в пространстве.
Но главное — это нужно по одной простой причине — чтобы генерация была глубже и интереснее. Хотя при таком подходе немного теряется контроль над финальным результатом. Мало ли, что там GPT придумает. Ну вот, собственно, и всё про технологию внутри SORA.
Давайте подытожим. В OpenAI разработали новый подход к обучению видео нейросетей с помощью патчей. Теперь для обучения можно использовать любое видео, разного разрешения, размера и качества.
Отсюда появляется разнообразие и согласованность ролика. Сразу стоит оговориться, мы до конца не знаем, как работает SORA. Видимо, в компании не готовы поделиться полными подробностями.
Также неизвестно, на каких именно видео тренировали нейронку. Возможно, мы никогда и не узнаем этого, потому что OpenAI грешат тем, что обучают свои модели на копирайтном контенте. Но хватит лирики, давайте посмотрим на возможности.
SORA не просто умеет создавать видео из текста, возможностей у неё гораздо больше, хотя их нам толком ещё и не показали. Как оригинально подметили в OpenAI, изображение на самом деле представляет из себя видеоролик, который состоит из одного кадра. Он просто очень короткий..
Также Elevenlabs уже анонсировали мод для SORA, который умеет создавать звук для роликов.
Вопрос лишь в том, когда и каким образом SORA появится в открытом доступе, ну или сколько это будет стоить.
Ссылка: https://openai.com/sora