Sora: Как устроена нейросеть, которая создаёт видео из текста Если отбросить всю шумиху, Sora — это модель генерации видео. Вы пишете текст, а она на его основе создаёт видеоролик длиной до минуты. Это не просто склейка картинок, а генерация последовательного и связного видео с пониманием пространства, движения и физики. Что это такое на самом деле? Sora — это диффузионная модель, как, например, Midjourney для изображений. Но её главное отличие — она работает не с отдельными кадрами, а с пространственно-временными патчами. Простыми словами: представьте, что видео — это не просто набор кадров, а трёхмерный объект (длина, высота и время). Sora учится убирать «шум» сразу со всего этого объёма данных. Это позволяет ей создавать не просто отдельные сцены, а цельные динамичные эпизоды, где объекты движутся логично и последовательно. Что она умеет делать? Создавать сложные сцены. Вы можете запросить «археолог-робот в пустыне на другой планете, закат, два солнца» — и она сгенерирует имен