Рубрика: Как это работает
Sora, Veo 3, Runway Gen-4 — за последние девять месяцев генерация видео из текста превратилась из демо-роликов для инвесторов в реальный инструмент. Netflix уже использует эту технологию для спецэффектов. Но как нейросеть вообще превращает слова в движущуюся картинку? И почему это требует столько энергии, как небольшой город?
Простыми словами
Представьте телевизор, который показывает только помехи — белый шум, хаотичные точки. Теперь представьте, что вы научились видеть в этом хаосе образы и постепенно «очищать» картинку, превращая шум во что-то осмысленное.
Именно так работает диффузионная модель — основа всех современных видеогенераторов. Она обучена на миллионах видеороликов и знает, как выглядит «правильное» изображение. Когда вы просите создать видео с единорогом, поедающим спагетти, модель начинает с полного хаоса и шаг за шагом превращает его в нужную картинку. Как скульптор, который отсекает лишнее от мраморной глыбы — только здесь «глыба» состоит из случайных пикселей.
Но картинка — это ещё не видео. Видео — это 24-30 картинок в секунду, которые должны быть согласованы между собой. Единорог не должен исчезать и появляться заново в каждом кадре, свет не должен прыгать, а спагетти — телепортироваться из тарелки в космос.
Как это устроено на самом деле
Современные генераторы видео — это «латентные диффузионные трансформеры». Звучит как заклинание, но давайте разберём по частям.
Диффузия: от шума к смыслу
Диффузионная модель учится на обратном процессе. Во время тренировки ей показывают миллионы картинок, к которым постепенно добавляют шум. Модель запоминает, как выглядит картинка на каждом этапе «зашумления» — и учится этот процесс разворачивать.
Когда вы даёте промпт «кот в космическом скафандре», модель начинает с полностью случайного набора пикселей и за 20-50 шагов превращает его в изображение. На каждом шаге она убирает немного шума, приближаясь к тому, что считает «котом в скафандре».
Но откуда модель знает, что именно вы хотите? Здесь подключается языковая модель — она направляет процесс очистки, подсказывая на каждом шаге: «это должно быть похоже на описание из промпта». Как навигатор, который корректирует маршрут.
Латентное пространство: работа в сжатом формате
Обрабатывать каждый пиксель каждого кадра — безумно дорого. Это как если бы для просмотра фильма вам нужно было загрузить его в несжатом виде: сотни гигабайт вместо пары.
Поэтому модели работают в «латентном пространстве» — это сжатое представление видео, где сохранена только существенная информация. Как ZIP-архив, только для нейросетей. Модель генерирует видео в этом компактном формате, а потом «распаковывает» результат в обычное видео.
Это делает процесс в разы эффективнее. Но даже так генерация одного 10-секундного ролика потребляет столько вычислительных ресурсов, сколько тысячи запросов к ChatGPT.
Трансформеры: согласованность между кадрами
Трансформеры — та же архитектура, что работает в ChatGPT и других языковых моделях. Они отлично умеют обрабатывать последовательности: понимать контекст, поддерживать связность от начала до конца.
Для видео это критически важно. OpenAI придумала нарезать видео на «кубики» — фрагменты, которые захватывают и пространство, и время. Как если бы вы взяли стопку кадров и вырезали из неё маленькие трёхмерные кусочки. Каждый такой кусочек модель обрабатывает как отдельный «токен» — примерно так же, как языковые модели обрабатывают слова.
Благодаря этому объекты не исчезают между кадрами, освещение остаётся консистентным, а движение выглядит естественно. Ну, в большинстве случаев — артефакты вроде лишних пальцев или телепортирующихся предметов всё ещё случаются.
Звук: конец эпохи немого кино
До 2025 года AI-видео было немым. Генераторы выдавали картинку, а звук приходилось добавлять отдельно.
Veo 3 от Google DeepMind изменил правила игры. Модель научилась генерировать видео и аудио одновременно — диалоги, звуковые эффекты, фоновый шум. Секрет в том, что видео и аудио сжимаются в единое представление внутри модели. Диффузия работает с обоими потоками синхронно, поэтому звук шагов совпадает с движением ног, а губы двигаются в такт словам.
Глава DeepMind Демис Хассабис назвал это «концом эпохи немого кино для AI». Пафосно, но по существу верно.
Почему это жрёт столько энергии
Вот что многие упускают из виду: генерация видео — это экологическая бомба замедленного действия.
По разным оценкам, создание одного 10-секундного ролика потребляет от $0.50 до $2 только на вычисления. Генерация одной минуты видео в Sora сопоставима с зарядкой 1800 смартфонов. Одна пятисекундная картинка — это как микроволновка, работающая больше часа.
Причины понятны: диффузия требует многократных проходов по данным (20-50 шагов деноизинга), каждый кадр — это миллионы пикселей, а кадров в секунду — десятки. Внимание в трансформерах масштабируется квадратично: пятисекундное видео в 720p — это 80 000 токенов, которые нужно сравнить друг с другом.
Удвоение длины видео увеличивает энергопотребление примерно в четыре раза. При этом парадокс Джевонса никто не отменял: чем дешевле становится генерация, тем больше её используют. Результат — экспоненциальный рост потребления энергии дата-центрами.
Об этом я подробно писал в материале «AI-гонка выжимает память из потребительского рынка» — там про экономику AI-инфраструктуры и последствия для обычных пользователей.
Что это значит для нас
Генерация видео уже влияет на рынок труда. Голливудские художники бастовали против AI. Netflix тестирует технологию в сериалах. Стоимость производства рекламных роликов начинает падать.
Для российских пользователей главное понимать:
Sora доступна подписчикам ChatGPT Plus ($20/месяц), но с ограничениями по количеству генераций. Veo 3 работает в Gemini для платных подписчиков. Google AI Ultra с полным доступом к Veo 3 стоит $250/месяц — это уже инструмент для профессионалов.
Качество «из коробки» — лотерея. Демо-ролики на презентациях тщательно отобраны из сотен попыток. В реальности придётся генерировать несколько версий и доводить промпты до блеска.
Главное применение сейчас — быстрое прототипирование и визуализация идей. Снять дешёвый рекламный ролик, сделать раскадровку для инвесторов, создать визуальный контент для соцсетей. До полноценного кинопроизводства ещё далеко, но для контент-мейкеров — уже рабочий инструмент.
Кстати, если вы путаетесь в терминах AI-индустрии, загляните в «Как работают AI-агенты» — там разобрана другая важная тема, которую полезно понимать.
Мнение редакции
Технология впечатляет. Но восторги в духе «AI заменит кинематографистов» выглядят преждевременными.
Посмотрите, сколько это стоит. Не пользователю — он платит $20 за подписку. А реально: тысячи GPU, энергопотребление небольшого города, инфраструктура на миллиарды долларов. Генерация одной минуты видео в 4K обходится Google в $18.75. Компания субсидирует каждый ваш запрос, чтобы занять рынок.
Это неустойчивая модель. Либо цены вырастут в разы, когда субсидии закончатся. Либо качество останется «достаточно хорошим для TikTok», но не для кино. Либо прорыв в эффективности случится — но пока что каждая новая модель требует больше вычислений, а не меньше.
Для контент-мейкеров, которые делают короткие ролики — да, революция. Для индустрии кино — преувеличение. Netflix добавил AI-эффект в один эпизод. Это не «AI снимает кино», это «дешёвый спецэффект».
Если интересуетесь технологиями без маркетинговой воды — подпишитесь. Разбираю то, что реально влияет на индустрию, а не то, что красиво смотрится на презентациях.