147 подписчиков

ИИ-видео — это кнопка «сделай красиво» или новая форма производственного ада?

22 мая22 мая

16 мин

Сейчас вокруг ИИ-видео сформировалось популярное мнение: нейросети делают всё очень просто. В рекламе видеосервисов это обычно выглядит так: написал, что хочешь увидеть, подождал пару минут — и получил готовый красивый видеоролик. С дорогим светом, эффектной камерой, красивыми актёрами, сложными декорациями, спецэффектами и почти голливудской картинкой. Кажется, что ещё немного — и нейросети заменят Голливуд: актёров, операторов, павильоны, дорогие камеры, свет за сотни тысяч долларов и всю огромную производственную машину кино. Да, пока генерации обычно короткие — по 5, 10, 15 секунд. Но теоретически можно ведь сгенерировать много таких кусочков, собрать их в монтажной программе и получить уже не короткий ролик, а полноценный фильм на полтора часа. Звучит просто. Но на практике всё сложнее. Я по своим задачам в компании как раз занимаюсь производством видео: делаю простые рекламные ролики, обучающие видео, заставки, презентационные материалы. И в этом смысле нейросети действительно ст

Оглавление

Пример №2
А как у других?

Кажется, что ещё немного — и нейросети заменят Голливуд: актёров, операторов, павильоны, дорогие камеры, свет за сотни тысяч долларов и всю огромную производственную машину кино. Да, пока генерации обычно короткие — по 5, 10, 15 секунд. Но теоретически можно ведь сгенерировать много таких кусочков, собрать их в монтажной программе и получить уже не короткий ролик, а полноценный фильм на полтора часа.

Звучит просто. Но на практике всё сложнее.

Я по своим задачам в компании как раз занимаюсь производством видео: делаю простые рекламные ролики, обучающие видео, заставки, презентационные материалы. И в этом смысле нейросети действительно стали для меня огромным усилителем. С их помощью я теперь могу делать то, о чём раньше мог только мечтать.

Например, я могу собрать крутую моушен-заставку с инфографикой, стилем и визуальной подачей, которую сам бы никогда не нарисовал. Более того, я бы иногда даже не придумал такой визуал без нейросети. Поэтому для меня ИИ часто работает не только как инструмент генерации, но и как генератор референсов. Он помогает увидеть, как вообще может выглядеть сцена, стиль, движение, свет, атмосфера.

Но дальше начинается самое интересное. Иногда проще взять то, что предложила нейросеть, и самому собрать результат в Premiere Pro или After Effects, потому что так он становится более предсказуемым. Так проще вносить правки. Так дешевле управлять деталями. Так меньше риска, что нейросеть внезапно «сломает» лицо, руку, композицию, текстуру, движение камеры или смысл сцены.

При этом возможности всё равно стали фантастическими. Я могу делать сюжеты, где люди будут играть и говорить так, как мне нужно. При необходимости могу даже сам сыграть сцену в кадре, а потом заменить свой облик на нужного персонажа. Могу сделать переозвучку нужным голосом. Могу создать эффект, который раньше требовал бы актёров, грима, съёмочной группы, аренды помещения, света, камеры, оператора и бюджета, которого у меня просто не было бы.

Недавно я так сделал поздравление женщин с 8 Марта для департамента компании, где работаю. Поздравление было от имени Сергея Бодрова, Леонардо ДиКаприо прямо с борта «Титаника» и Джареда Лето. Женщины остались в восторге. Для внутреннего корпоративного видео это был сильный вау-эффект.

Но потом начинается обратная сторона.

Когда люди смотрят готовый продукт, им нравится. Они говорят: «Вау, круто». Но как только узнают, что это сделано с помощью ИИ, ценность работы в их глазах часто падает. Появляется ощущение: ну а что там делать? Нажал кнопку, написал «сделай красиво» — и нейросеть выдала ролик.

И вот это главная ошибка восприятия.

ИИ действительно даёт гигантский выигрыш в возможностях. Иногда он даёт выигрыш и во времени. С его помощью можно сделать то, что раньше было невозможно при скромном бюджете. ДиКаприо ко мне точно не пришёл бы поздравлять женщин с моей зарплатой. Корабль я бы не арендовал. Съёмочную группу, технику, свет и актёров такого уровня тоже не привёл бы.

Но это не значит, что видео создаётся само.

ИИ-видео — это всё равно время, деньги, перебор вариантов, отбор, монтаж, правки и огромное количество производственной рутины. Нейросеть далеко не всегда с первой генерации выдаёт нужный результат. Чаще ты тратишь кучу попыток, прежде чем получаешь версию, которую вообще можно использовать.

В моём опыте одна минута качественного ИИ-видео высокой сложности обходилась примерно в 2500 рублей прямых затрат и около 12 часов работы. Это если нужно, чтобы люди нормально отыгрывали, интерьер попадал в задумку, сцены были связаны, голос звучал убедительно, липсинк не ломал магию, а итоговый ролик выглядел как цельный продукт, а не как набор случайных генераций.

Процесс выглядит примерно так.

Сначала пишется сценарий. Да, я тоже использую для этого ИИ, но сценарий всё равно нужно собрать, выровнять, проверить по смыслу, по темпу, по драматургии, по задаче ролика. Потом генерируются опорные кадры. Нужно понять, как должны выглядеть сцены, персонажи, интерьер, свет, композиция, расположение людей в кадре. Из кадра в кадр должна сохраняться причинно-следственная связь. Нельзя, чтобы человек в одной сцене стоял у окна, в другой внезапно оказался в другом помещении, а в третьей потерял связь с предыдущим действием.

Затем на основе опорных кадров делается видеоанимация. После этого начинается отбор лучших версий. Часто приходится корректировать промты, чтобы нейросеть точнее выполнила задумку. Дальше генерируется озвучка. И с ней тоже нужно работать: настраивать эмоцию, ударения, акценты, интонацию, темп речи. Персонаж должен говорить не просто словами, а с нужным состоянием.

Потом нужен липсинк. Голос должен совпадать с движением губ. Если человек просто шлёпает ртом, а звук живёт отдельно, магия кино мгновенно рушится. Зритель перестаёт верить в то, что смотрит. Он уже не погружён в сцену, а начинает думать: почему у персонажа рот открыт не тогда, когда идёт речь?

После этого всё нужно свести в монтажной программе. Добавить эффекты, сделать саунд-дизайн. Например, если сцена происходит на палубе корабля, нужны шум моря, крики чаек, шум двигателя, голоса людей на фоне. Причём эти шумы тоже должны меняться в зависимости от сцены. Да, простой саунд-дизайн можно сделать нейросетями. Но если сцена сложная, опыт показывает: часто лучше и точнее собирать звук вручную.

И это всё — работа одного человека. Да, усиленного нейросетями. Да, с новыми возможностями. Но всё равно человека, который принимает решения, отбирает, исправляет, монтирует, собирает и отвечает за итоговый результат.

Когда коллега на работе спросил меня после одного видео, сколько это стоит и сколько времени нужно, я сказал честно: поздравительный ролик с ДиКаприо я сделал примерно за 24 часа и потратил около 5000 рублей. И считаю, что это ещё очень скромно. У меня уже был опыт, я знал фишки, понимал, где можно ускориться, где можно не усложнять, где лучше сделать самому, а где доверить генерации.

Но чем чаще такие видео появлялись, тем сильнее становилось обесценивание. Сначала говорили: «Очень круто». Потом: «А, ну это же нейронки». Потом, когда я показывал очередное видео и говорил, что делал его 28 часов, реакция была примерно такая: «Ну… надо как-то проще и быстрее».

Пример №2

Ещё один показательный эпизод обесценивания ИИ-видео был у меня с рекламным роликом по трейдингу в банке.

Поставили задачу сделать короткую рекламку. В итоге я сделал видео длительностью примерно 65 секунд за 24 часа. Прямые затраты составили около 6000 рублей.

Что было сделано за это время:

Я доработал сценарий заказчика, потому что он плохо понимал специфику визуализации рекламного видео. Как минимум хуже меня, потому что у меня уже был опыт сборки таких роликов.

Затем я создавал видеоролики под сценарий. Тогда это был 2024 год, и возможности нейросетей были намного скромнее, чем сейчас. Я генерировал видео в основном по текстовым запросам, без опорных кадров. То есть нельзя было просто дать нейросети точную картинку и сказать: «Анимируй вот это». Приходилось добиваться результата через описание сцены.

Часть сложных композиционных кадров нейросеть вообще не могла собрать самостоятельно по одному промту. Их приходилось собирать отдельно. Например, обратите внимание на сцену с деревом в конце ролика: сейчас подобные вещи делать уже проще, но в 2024 году это было заметно сложнее.

После этого я сделал генерацию озвучки, подобрал музыкальное сопровождение и собрал финальный монтаж.

И вот когда заказчик узнал, сколько это заняло времени и денег — примерно 24 часа работы и 6000 рублей затрат, — он сказал:

«На хрена такие затраты? Проще снять самим».

Что особенно удивительно, примерно то же самое сказал местный видеограф. И вот с этих слов я вообще офигел.

Теперь разберём, насколько справедлива такая обратная связь.

Первое. Занести видеоаппаратуру в трейдинговую комнату банка — запрещено. На этом уже можно заканчивать рассуждение. Нейросеть смогла воссоздать эту среду как воображаемое, но реалистично выглядящее пространство. Причём не статичной картинкой, а в динамике: с работой сотрудников, движением, атмосферой и ощущением настоящего рабочего процесса.

Второе. В ролике нужны люди. Не просто случайные сотрудники в кадре, а люди, которые выглядят как модели для рекламного видео: разные планы, разные ракурсы, уверенность, энергия, улыбки, ощущение успешного успеха. Они должны демонстрировать, как круто заниматься трейдингом, а не сидеть уставшими и унылыми за рабочими местами.

И вот вопрос: вы гарантируете, что найдёте таких актёров? Их ещё нужно привести в помещение банка, куда посторонним входить запрещено. Нужно согласовывать это со службой безопасности. Нужно договариваться, объяснять, получать разрешения. Это уже отдельная организационная нагрузка, которая в банковской среде может оказаться сложнее самого ролика.

А если снимать реальных сотрудников, которые там работают, то есть другой вопрос: они точно будут соответствовать рекламной задумке? Они готовы играть? Они выглядят как персонажи рекламного ролика? Они будут улыбаться, двигаться, попадать в нужный образ, выдерживать несколько дублей? Я сильно сомневаюсь.

Третье. В ролике были сцены не только про работу, но и про отдых. Как вы снимете сотрудников на пляже? С детьми? В красивой расслабленной обстановке? Они готовы сниматься? Вы готовы организовывать выездную съёмку? Искать локацию? Согласовывать людей? Подбирать одежду? Снимать это всё так, чтобы оно выглядело не как домашнее видео, а как рекламный ролик?

Четвёртое. Нужен диктор. Вы сможете быстро организовать профессионального диктора с хорошей речью, нужной интонацией, правильными акцентами и подачей? Или опять нужно будет искать человека, согласовывать, записывать, править, перезаписывать?

В банке одно только согласование всех этих действий может легко занять недели или месяцы. А в некоторых случаях могут просто отказать. Потому что съёмка в закрытых рабочих помещениях, участие сотрудников, доступ посторонних, техника, безопасность, внешний вид рабочих процессов — всё это не решается фразой «давайте снимем сами».

И вот здесь главный парадокс.

Когда человек говорит: «Проще снять самим», он часто не считает реальное производство. Он представляет не съёмочный процесс, а магическую версию съёмочного процесса, где все люди свободны, все помещения доступны, служба безопасности согласовала всё за пять минут, актёры сами нашлись, диктор сам записался, монтаж сам собрался, а итог почему-то выглядит как рекламный ролик.

Но в реальности всё иначе.

Именно нейросеть сделала этот ролик возможным. Она позволила создать воображаемую среду, которая выглядит как реальная. Она позволила показать недоступные помещения, нужных персонажей, рекламную атмосферу, отдых, динамику, эмоции и визуальную подачу без реальной съёмки, без актёров, без доступа в закрытые зоны, без выездной группы и без многомесячных согласований.

Да, на это ушли 24 часа и 6000 рублей. Но если сравнивать не с фантазией «мы бы сами быстро сняли», а с реальным продакшеном в банковской среде, то это не дорого. Это, наоборот, очень дёшево.

Потому что альтернатива — это не «снять самим за пару часов».

Альтернатива — это согласования, люди, помещение, техника, съёмка, дубли, диктор, монтаж, звук, правки и высокий риск, что в итоге всё равно получится хуже.

Вот в этом и заключается главная ошибка восприятия ИИ-видео. Люди видят, что ролик сделан в нейросети, и думают: значит, он должен быть почти бесплатным. Но они не видят, что нейросеть не просто удешевила производство. Она открыла возможность сделать то, что обычным способом в конкретных условиях было бы почти невозможно.

То-то и оно: ИИ не просто «сделал дешевле». ИИ сделал это возможным.

И вот тут реально опускаются руки. Возникает ощущение: или я что-то неправильно понимаю, или люди вообще не видят, сколько труда стоит за итоговым результатом.

А как у других?

В какой-то момент я решил проверить: а как у других? Сколько времени, денег и попыток уходит на создание ИИ-видео у команд, которые занимаются этим профессионально?

И тут я наткнулся на материал о проекте американской компании Higgsfield. По данным 3DNews, стартап создал с помощью ИИ полнометражный фильм Hell Grind продолжительностью 95 минут, потратив на него две недели и 500 000 долларов. Из этой суммы 400 000 долларов ушли только на оплату вычислительных мощностей.

И вот здесь начинается самое интересное.

Higgsfield использовала общедоступные видеомодели вроде Google Veo 3 и Seedance 2.0, а своё ноу-хау строила вокруг сохранения преемственности сцен и образов. То есть главная проблема была не просто «сгенерировать красивый кадр», а удержать цельность фильма: персонажей, визуальный стиль, свет, физику, монтажную логику и связь сцен между собой.

По данным статьи, один текстовый запрос для сцены в среднем содержал около 3000 слов. В промтах приходилось подробно описывать стиль, свет, имитацию съёмочного оборудования, физику движения, визуальные эффекты и поведение объектов. То есть это не «сделай мне красивое кино». Это огромная техническая инструкция к каждому короткому фрагменту.

Особенно показательна статистика по первым 25 минутам фильма. Для них было сгенерировано 16 181 клип продолжительностью по 15 секунд. В финальный вариант вошло только 253 клипа.

Теперь посчитаем.

16 181 генерация / 25 минут = примерно 647 генераций на одну минуту финального видео.

То есть одна минута готового ИИ-фильма потребовала в среднем около 647 сгенерированных 15-секундных клипов.

А в финал попадало:

253 клипа / 25 минут = примерно 10 финальных клипов на одну минуту.

Получается, чтобы собрать одну минуту готового фильма, команда генерировала сотни вариантов, а использовала только небольшую часть. Если считать грубо, около 98,4 % сгенерированных клипов не попадали в финал.

Вот она, реальность ИИ-видео. Не кнопка. Не магия. А массовый перебор дублей.

Теперь стоимость.

Общий бюджет фильма — 500 000 долларов.

500 000 / 95 минут = примерно 5263 доллара за одну минуту финального видео.

Только вычислительные мощности:

400 000 / 95 минут = примерно 4211 долларов за одну минуту.

Оставшиеся расходы:

100 000 / 95 минут = примерно 1053 доллара за одну минуту.

То есть одна минута ИИ-фильма обошлась примерно в 5263 доллара, из которых около 4211 долларов ушло только на генерации и облачные мощности.

Теперь время.

Фильм сделали за 14 дней. Если считать календарное время:

14 дней × 24 часа = 336 часов.

336 часов / 95 минут = примерно 3,5 часа календарного времени на одну минуту готового фильма.

На первый взгляд это очень быстро. Но это календарное время всей производственной машины, а не работа одного человека. В проекте участвовала команда. Если считать хотя бы 15 человек и обычный рабочий день по 8 часов, получается:

15 человек × 14 дней × 8 часов = 1680 человеко-часов.

1680 / 95 минут = примерно 17,7 человеко-часа на одну минуту фильма.

Если команда работала по 12 часов в день, что для такого проекта вполне возможно, то выходит уже около 26,5 человеко-часа на одну минуту.

То есть реалистичный диапазон — примерно 18–27 человеко-часов на одну минуту финального ИИ-видео. И это при команде, пайплайне, опыте, доступе к сервисам, бюджете и вычислительным мощностям.

И вот после этого становится смешно слышать: «Ну это же нейронки, что там делать?»

По сути, в обычном кино происходит похожая история. Там тоже много дублей, импровизаций, брака, пересъёмок, монтажных решений и огромных трат. Сцена задумана, актёр сыграл — не то выражение лица. Ещё дубль. Свет лёг не так. Ещё дубль. Камера прошла неудачно. Ещё дубль. Актёр переиграл. Ещё дубль. Потом вдруг импровизация оказалась лучше сценария — её оставили. А в финальный монтаж попали несколько секунд из огромного количества отснятого материала.

ИИ не отменил этот принцип. Он просто перенёс хаос из физического мира в цифровой.

В обычном кино деньги сгорают на площадке: актёры, свет, камеры, аренда, грим, декорации, техника, транспорт, питание, команда.

В ИИ-кино деньги сгорают в генерациях: compute, промты, отбор, исправления, консистентность, монтаж, звук, липсинк, пересборка сцен.

Принцип остался тем же: кино — это искусство выбрать живой кадр из огромного количества мусора.

Просто раньше этот мусор лежал в папке с отснятым материалом. Теперь он лежит в папке с генерациями.

Главный вывод здесь простой: ИИ действительно меняет производство видео. Он даёт человеку возможности, которых раньше у него не было. Он позволяет одному специалисту сделать то, для чего раньше требовалась маленькая студия. Он снижает порог входа, расширяет визуальный диапазон, ускоряет поиск идей и позволяет реализовывать сцены, которые раньше были недоступны по бюджету.

Но ИИ не отменяет работу.

Он не отменяет вкус профессионала, режиссуру, монтажное мышление, необходимость интересно сценария, звук, отбор и самое главное - ответственность за результат.

Он просто переносит часть производства в новую среду. Вместо съёмочной площадки — генеративный пайплайн. Вместо физических дублей — цифровые дубли. Вместо дорогих актёров и декораций — дорогой compute и часы человеческого отбора.

Поэтому когда человек говорит: «Это же сделано в ИИ», правильнее отвечать не «да, поэтому это просто», а наоборот: «да, поэтому за этим стоит другой тип труда».

ИИ-видео — это не кнопка «сделай красиво». Это новая форма производства.

Более быстрая, мощная и доступная, но всё ещё требующая времени, денег, вкуса, опыта и огромного количества решений.

И чем сильнее будет развиваться ИИ, тем важнее станет не сам факт владения нейросетью, а умение собрать с её помощью востребованный продукт, соответствующий конкретной задаче. Потому что сгенерировать красивый фрагмент сможет всё больше людей. А вот собрать из сотен и тысяч фрагментов цельное видео, которое работает на зрителя, — это уже профессия.

При этом намечается и другая тенденция: продолжительность генераций становится всё больше. Уже появляются сервисы, способные создавать ролики до 60 секунд за один заход, сохраняя идентичность персонажей и точнее следуя промту. Кроме того, улучшается понимание видео нейросетями: они всё лучше учитывают физику движения, поведение людей, логику сцены, драматургию, сюжет и сам принцип того, как строится кино.

Уже звучат амбициозные заявления от компаний, занимающихся нейросетями и сериалами: через несколько лет модель сможет создавать серию по готовому сценарию. Буквально так: вы загружаете сценарий — она выдаёт готовый эпизод на 45 минут. То есть полноценный ролик без участия живых актёров, съёмочной группы и режиссёра монтажа. Условный "Вася" сможет сидеть дома в деревне и запускать собственный «Голливуд» с любыми эффектами, используя даже слабый ноутбук — лишь бы работали браузер и интернет. Все расчёты будут идти на гигантских серверных мощностях, а генерация видео со временем станет значительно дешевле.

Эту динамику видно уже сейчас: за последние три года качество ИИ-видео резко выросло — по визуальной стилистике, следованию промту, реалистичности движения, и конечно по общей управляемости результата. Кратно выросла скорость генераций, снизилась стоимость.

Но пока это всё ещё прогноз. Даже новые модели безумно косячат. До сих пор нужно множество генераций, чтобы получить желаемый результат. Тем более всё ещё нужен человек, который опишет, что именно должна сделать нейросеть, отберёт удачные варианты, сведёт всё в готовый продукт и ответит за результат перед заказчиком.

Поэтому сегодня ИИ не отменяет профессию. Он меняет её устройство.
Раньше специалист работал с камерой, светом, актёрами и монтажом.
Теперь он работает ещё и с промтами, генерациями, отбором, липсинком, голосами, стилем, консистентностью и огромным количеством цифровых дублей. А что то по прежнему проще снять по старинке: снять человека в кадре.

Именно поэтому фраза «это сделано в ИИ» не должна означать «это сделано легко». Гораздо точнее сказать иначе: это сделано в новой производственной среде, где человек по-прежнему остаётся тем, кто превращает хаос возможностей в готовый работающий продукт.