Найти в Дзене
LUM

Sora: новая нейросеть, которая создаёт видео из текста

Sora: Как устроена нейросеть, которая создаёт видео из текста Если отбросить всю шумиху, Sora — это модель генерации видео. Вы пишете текст, а она на его основе создаёт видеоролик длиной до минуты. Это не просто склейка картинок, а генерация последовательного и связного видео с пониманием пространства, движения и физики. Что это такое на самом деле? Sora — это диффузионная модель, как, например, Midjourney для изображений. Но её главное отличие — она работает не с отдельными кадрами, а с пространственно-временными патчами. Простыми словами: представьте, что видео — это не просто набор кадров, а трёхмерный объект (длина, высота и время). Sora учится убирать «шум» сразу со всего этого объёма данных. Это позволяет ей создавать не просто отдельные сцены, а цельные динамичные эпизоды, где объекты движутся логично и последовательно. Что она умеет делать? Создавать сложные сцены. Вы можете запросить «археолог-робот в пустыне на другой планете, закат, два солнца» — и она сгенерирует имен

Sora: Как устроена нейросеть, которая создаёт видео из текста

Если отбросить всю шумиху, Sora — это модель генерации видео. Вы пишете текст, а она на его основе создаёт видеоролик длиной до минуты. Это не просто склейка картинок, а генерация последовательного и связного видео с пониманием пространства, движения и физики.

Что это такое на самом деле?

Sora — это диффузионная модель, как, например, Midjourney для изображений. Но её главное отличие — она работает не с отдельными кадрами, а с пространственно-временными патчами.

Простыми словами: представьте, что видео — это не просто набор кадров, а трёхмерный объект (длина, высота и время). Sora учится убирать «шум» сразу со всего этого объёма данных. Это позволяет ей создавать не просто отдельные сцены, а цельные динамичные эпизоды, где объекты движутся логично и последовательно.

Что она умеет делать?

Создавать сложные сцены. Вы можете запросить «археолог-робот в пустыне на другой планете, закат, два солнца» — и она сгенерирует именно это, с детализацией, тенями и движением.

Поддерживать целостность объектов. В отличие от более ранних моделей, где объекты могли хаотично появляться и исчезать, Sora старается «помнить», что в кадре находится один и тот же персонаж или предмет на протяжении всего ролика.

Моделировать простую физику. Она «понимает», что шарик должен падать вниз, а не вверх, что у бегущего человека двигаются ноги и руки, а разбитая чашка не склеивается сама собой. Пока что это понимание неидеально, но оно уже заложено в основу.

Работать с существующими изображениями или видео. Sora может «дорисовать» статичную картинку, оживив её, или продолжить уже начатый видеоролик.

Как это работает? Техническая суть

Сжатие данных. Сначала видео преобразуется в более низкопробное представление — своего рода «сжатый» цифровой слепок, где сохранена ключевая информация, но убраны избыточные данные.

Диффузия. На этом «слепке» работает диффузионная модель. Она начинается с чистого шума и постепенно, шаг за шагом, преобразует его в связное видео, ориентируясь на текстовый запрос.

Патчи. Ключевой элемент — разбиение этого сжатого видео на патчи, аналогичные токенам в текстовых моделях. Это позволяет модели обучаться на видео разных размеров, длительности и разрешения.

В чём её главная «магия» и ограничения?

Магия в том, что Sora — это шаг к созданию мировых симуляторов. Обучаясь на миллионах видео, она не просто запоминает картинки, а выучивает внутренние законы нашего мира: как течёт вода, как ломается объект, как движется животное. Она учится не рисовать, а симулировать.

Ограничения всё ещё серьёзны:

Физика неидеальна. Она может легко допустить ошибку: человек может сделать неестественный шаг, машина — проехать сквозь стену, а объект — бесследно исчезнуть.

Причинно-следственные связи. Модель может не до конца понимать логику событий. Например, если попросить сцену, где человек откусывает печенье, на нём может не остаться следов укуса.

Доступ. Пока что Sora не доступна широкой публике. Она находится на этапе тестирования, и её изучают специалисты по безопасности, чтобы минимизировать риски создания вредоносного контента.

Что это значит для нас?

Sora — это не просто «ещё один генератор». Это демонстрация того, что ИИ начинает осваивать не статику, а динамику нашего мира. В перспективе это может изменить кинопроизводство (создание раскадровок, превизуализаций), геймдев (генерация игровых миров) и цифровой маркетинг.

Но прямо сейчас это мощный исследовательский проект, который показывает, на каком пороге мы находимся. Пороге, где машины учатся не просто видеть, но и предсказывать, как будет выглядеть движение и изменение.