Добавить в корзинуПозвонить
Найти в Дзене
Студия Злого Облака

Как использовать нейросети для YouTube канала и потокового производства видео

Нейросети — это не только «штука», которая может день распланировать, текст написать, диплом сделать и прочее. Это ещё и рабочий инструмент для создателей контента. Не идеальный и временами адски непредсказуемый, но зато бюджетный — если ваше время ничего не стоит. Вопреки если не всеобщему, то как минимум мнению широкого круга лиц, нейросети — не волшебная палочка, которой взмахнул и всё готово. Технически — да, оно так и работает. Но результат такой работы часто выглядит как рисунок пятилетки, если вы хотите получить что-то приличное — придётся попотеть. Меня зовут Яан Прокофьев — я креативный продюсер (Занимаюсь Ютубом и созданием рекламных кроликов) и уже больше года использую нейросети для создания контента, в частности для YouTube, и накопил приличный багаж страданий и редких моментов радости, которыми хочу поделиться. Корректнее говорить «для каких проектов», их несколько. Но самым примечательным стал YouTube-канал Level One, на примере которого и буду рассказывать. Изначально
Оглавление

Нейросети — это не только «штука», которая может день распланировать, текст написать, диплом сделать и прочее. Это ещё и рабочий инструмент для создателей контента. Не идеальный и временами адски непредсказуемый, но зато бюджетный — если ваше время ничего не стоит.

Вопреки если не всеобщему, то как минимум мнению широкого круга лиц, нейросети — не волшебная палочка, которой взмахнул и всё готово. Технически — да, оно так и работает. Но результат такой работы часто выглядит как рисунок пятилетки, если вы хотите получить что-то приличное — придётся попотеть.

Пример генерации с первой итерации и после некоторой итерации правок  - Чёрный силуэт Джека-потрошителя в цилиндре и длинном пальто стоит в тёмном викторианском переулке. В его глазах холодный, нечеловеческий свет – это андроид с механическими глазами. Газовые фонари отбрасывают мерцающий свет, вокруг сырость и туман. Перед ним стоит женщина в алом платье викторианской эпохи, в руках у неё современный айфон, экран которого освещает её спокойное лицо
Пример генерации с первой итерации и после некоторой итерации правок - Чёрный силуэт Джека-потрошителя в цилиндре и длинном пальто стоит в тёмном викторианском переулке. В его глазах холодный, нечеловеческий свет – это андроид с механическими глазами. Газовые фонари отбрасывают мерцающий свет, вокруг сырость и туман. Перед ним стоит женщина в алом платье викторианской эпохи, в руках у неё современный айфон, экран которого освещает её спокойное лицо

Меня зовут Яан Прокофьев — я креативный продюсер (Занимаюсь Ютубом и созданием рекламных кроликов) и уже больше года использую нейросети для создания контента, в частности для YouTube, и накопил приличный багаж страданий и редких моментов радости, которыми хочу поделиться.

Для какого проекта использую

Корректнее говорить «для каких проектов», их несколько. Но самым примечательным стал YouTube-канал Level One, на примере которого и буду рассказывать.

-2

Изначально задача стояла простая на словах и сложная на деле: поставить на поток производство «научпоп-сериала» с лекторами, где каждая серия должна выходить раз в неделю. Я присоединился к проекту как специалист по видеопродакшену и отвечал за разработку концепции канала, включая сценарии и визуальный ряд.

Сериал — это отлично: интересно, увлекательно и кинематографично. Снять красиво — задача реализуемая, если есть бюджет. А у нас бюджет был примерно как на студенческий фильм про зомби, снятый на телефон. И перед нами стояла задача: как сделать визуально дорого-красиво, чтобы это смотрелось и ощущалось как документалки?

В рамках поиска решений мы перебрали все варианты — от покупки стоковых видео (дорого и всё равно выглядит как стоки) до традиционной съёмки (дорого и долго). И тут появилась идея использовать нейросети.

Через пару дней я принёс первые результаты, которые впечатлили заказчика, и мы утвердили это направление.

И что главное, это должно были быть небольшие «кинофрагменты», которые свяжут логические блоки видео и разбавят речь «говорящей головы». А сам видеоряд должен был быть простым, выглядеть как Netflix и оригинальным — всё понятно и доступно. Встал вопрос, как это всё интегрировать.

Пробы пера

Любая работа с нейронками — это как бросать кубики в казино. Ты будешь бросать их пока не получишь нужный тебе результат. Сколько граней на этом кубике — одному Богу известно, здесь условно идет работа с вероятностями.

Процесс генерации изображения из цифрового шума
Процесс генерации изображения из цифрового шума

И вот эта игра с вероятностями — ключевая проблема всех имеющихся визуальных нейронок (которые работают с созданием картинок и видео). Очень сложно получить стабильный результат, который будет удовлетворять меня, менеджера и заказчика. По итогу пришли к тому, что для начала нужно научиться генерировать небольшие сцены в одном стиле.

Но как? Всего есть три схемы, как это можно реализовать, и первое время мы, как настоящие экспериментаторы, использовали все:

  • первый: генерация картинки в Midjourney (--v 5) или Dall-E, затем их анимация с помощью Runway (Gen 2), Genmo, Leiapix и других;
  • второй: сразу всё делать в формате видео по текстовому запросу в Genmo, Runway и других сервисах;
  • третий: создавать видео из видео с помощью Runway video-to-video.

Как итог получили примерно такую сцену (сектанты спустились в токийское метро, в котором выпустили нервно-паралитический газ). Всё в этом видео сделано с помощью нейросетей и если вглядываться, это можно заметить, но в целом результат выглядит хорошо.

-5

Но такой подход показал себя непродуктивно. Если сразу использовать нейросети для генерации видео, результат получается непредсказуемым: то стиль собьется, то непонятные артефакты и прочие проблемы. А так как у нас потоковое производство, любая оплошность приводила к тому, что приходилось всё переделывать, а это время, сроки, которые срывать нельзя, и мои седые волосы.

Поэтому остановились на первом способе — генерация картинок в Midjourney, затем их анимация с помощью Runway.

Поначалу пробовали Dall-E - аналог Midjourney встроенный в Chat GPT, так как она понимает русский язык — родной для большинства участников команды (работал я всё же не один). Однако её основной минус — ограничение потокового производства, так как был лимит на генерации картинок, в том числе в платной версии. Если лимит превышен — отдыхайте 3 часа и думайте о своей жизни.

Поэтому выбор пал на Midjourney — полностью на английском, что одновременно и удобно, и чертовски неудобно (нужно либо владеть языком на уровне «могу объяснить нейросети, что такое экзистенциализм», либо использовать переводчик). А для генерации видео остановились на Runway, так как в ней нет ограничений, кроме ваших финансовых и на тот момент это был лучший генератор видео.

Расценки между прочим были достаточно адекватные:

Midjourney (Standart Plan) — 288 долларов за год;
Midjourney (Standart Plan) — 288 долларов за год;
Runway — 110 долларов в месяц.
Runway — 110 долларов в месяц.

Это в сумме примерно как пару раз сходить в ресторан с компанией — но пользы для проекта оказалось больше.

Интеграция нейросетей в рабочий процесс

Самое главное во всех рабочих процессах — слаженная командная работа и четкое понимание зон ответственности. В течение пары месяцев мы отточили чёткий регламент по работе с нейросетями, который позволил стабильно выпускать ролики, не срывая сроки и не убивая друг друга.

Весь процесс опирался на пятерых людей: двух монтажеров, двух редакторов и меня как креативного продюсера, который выступал связующим звеном. Сначала мы делали раскадровку видео, затем создавали изображения, которые впоследствии анимировали и отдавали монтажеру. Звучит просто? Ага, как и ядерная физика на пальцах.

Просто мемный котик в новом стиле
Просто мемный котик в новом стиле

Шаг 1: Раскадровка

Здесь всё довольно просто. После утверждения сценария - делалась раскадровка — в среднем три кадра с разным планом исходя из текста лектора, затем он же прописывал какая картинка должна быть, чтобы перекрыть «говорящую голову».

Пример раскадровки
Пример раскадровки

В большинстве случаев визуальный ряд дополнял речь автора, а не просто её копировал и отражал в картинке. Но сделать такое креативное видео — задача непростая, особенно когда речь идет о потоковом производстве, ведь на это нужно время, которого мало.

Поэтому я попробовал привлечь ChatGPT. Поначалу получалось откровенно плохо, несмотря на то, что я рассказал ИИ, как делать раскадровки и расписывать визуальное сопровождение. Однако с какой-то попытки он всё же понял, что от него требуют.

Промты которые по факту надо было дорабатывать
Промты которые по факту надо было дорабатывать

Генерация изображений

Когда текстовая часть раскадровки была оформлена, мы приступали к генерации картинок, а процесс это небыстрый (расскажу об этом подробнее далее). В Midjourney работала вся команда, так как дедлайн — понятие не растяжимое и нужно было успевать в срок.

У каждого участника проекта была своя ветка в Discord канале, где они генерировали изображения по промтам.

Как выглядел дискорд с кучкей каналов (каналов больше чем пять так как иногда приходилось прибегать к помощи дополнительных рук)
Как выглядел дискорд с кучкей каналов (каналов больше чем пять так как иногда приходилось прибегать к помощи дополнительных рук)

Как я уже писал я пытался отдать задачу по написанию промтов ChatGPT, но тот не справился, несмотря на наличие подробной инструкции как с ними работать. Как-то нейросети между собой не дружат. По итогу всё свелось к тому, что нейросеть просто создавала текстовое описание сцены на английском, а я уже дорабатывал его и добавлял нужные параметры, чтобы получить желаемую картинку. Не сильно практично, но процесс отчасти ускоряло, если сравнивать с попытками написать всё с нуля.

Анимация изображений

Здесь всё просто и понятно только на первый взгляд. Картинки из Midjourney отправлялись в Runway и анимировались, однако чтобы получить удобоваримый результат приходилось прогонять их по пять раз. Все потому, что в 2023 году технология имела серьезное ограничение — генерация не позволяла писать промпты для точной настройки анимации.

скрин из Runway
скрин из Runway
-15

Монтаж

Несмотря на то, что процесс кажется несложным: совместили три фрагмента видео из Runway и получилась готовая сцена, в реальности всё оказывается веселее.

Проблема в том, что фрагменты периодически не стыкуются по фазе движения — их приходится переделывать. Часто возникает необходимость в добавлении схем и дополнительных элементов. А с учётом того, что это большие выпуски, если хочется что-то поменять, то всё смещается. Это занимает порядком времени, плюс всё это нужно стилистически оформлять.

Ещё один важный момент: если вы записываете лекцию на 40 минут, то это в районе 3 часов записи минимум. Из этих трёх часов надо нарезать "рыбу", где уже будет чистый голос и то, где нужно будет перекрывать лектора.

-16

С учётом того, что мы работали без суфлера, выходило действительно больше трёх часов для того, чтобы лекторы именно рассказывали, а не машинально читали свой текст.

Также на этапе монтажа возникали моменты, когда думаешь, что всё готово, пересматриваешь и понимаешь — некоторые блоки могут повторяться по визуалу, или наоборот, надо сделать что-то более-менее похожее. На этом этапе происходила тоже значительная часть доработки. Это не просто "тяп-ляп и в продакшн!"

Нюансы

Для оптимизации всех этапов работы и ускорения процесса приходилось тратить много время на обучение (чем, собственно, и занимаюсь до сих пор). Это позволило не только повысить темп, но и улучшить качество продукта — сначала моего, а затем и всей команды.

Например, я нашел способы сократить временные издержки при работе в Midjourney. Ранее, чтобы сохранить итоговую картинку, приходилось выполнять несколько неудобных и раздражающих действий - порядка 4 кликов. Затем всё свелось к одному клику: достаточно нажать кнопку в веб-версии Discord и скачать изображение с помощью плагина для Chrome.

Как расширение выглядит в веб-версии Discord
Как расширение выглядит в веб-версии Discord

Я внимательно следил за всеми обновлениями и оперативно внедрял их, что также помогало ускорить процесс. Так, появление функции редактирования отдельных областей изображения в Midjourney,

-18

а также возможность анимировать отдельные фрагменты сцены в Runway стали настоящим спасением, значительно упростив работу.

-19

Куда уходит время?

Увы и ах, процесс генерации что видео, что изображения, не моментальный и требует терпения, которое местами сложно сохранять, когда до сдачи видео остаются сутки.

В Midjourney есть режим быстрой генерации, где на создание одной картинки уходит в среднем 35 секунд, тогда как в режиме Relax — две минуты или больше, в зависимости от нагрузки на сервер. Однако время быстрого создания изображений ограничено: от 3,3 до 60 часов в месяц, в зависимости от тарифного плана. В нашем случае было доступно 15 часов, которые расходовались буквально за пару дней.

Тарифные планы Midjourney
Тарифные планы Midjourney

В Runway генерация анимации занимала около минуты, что относительно быстро. Но если сложить все потраченные минуты, цифры получаются внушительные. Например, на создание одного из наших самых популярных роликов ушли почти двое суток чистой работы с нейросетями.

Сам ролик длится 57 минут, из которых почти 12 — это нейрогенерация, включающая 155 изображений. Каждое требовало промта и минимум две минуты на создание. Однако нужный результат редко получается с первой попытки. В среднем требуется три генерации, плюс ещё два запроса на апскейл для увеличения разрешения. В итоге на одно изображение уходило около 10 минут работы только нейросети.

155 изображений, сгенерированных в Relax-режиме Midjourney, — это 26 часов. Добавляем ещё 7-8 попыток на генерацию видео, так как было большое количество артефактов и брака, получаем еще 20 часов на анимацию — в сумме 46 часов. Впечатляюще, не так ли?

И чем сложнее тема и более точные изображения нужны, тем больше уходит времени. А вот точные иллюстрации — это не про Midjourney. Работа с нейросетями в этом плане напоминает просьбу к инженеру написать статью о его работе: он принесёт текст, но далеко не в том виде, в каком нужно, а на редактирование уйдёт уйма времени.

Сейчас же в среднем на анимацию видео требуется три генерации, если не брать во внимание трудности работы с онлайн сервисами, которые периодически ложились, в частности из-за технического обслуживания серверов.

Промты

Их написание занимает немногим меньше, а то и больше, чем сама генерация. Так как здесь всё очень зависит от сцены и от объектов которые используются в ней. Потому что, опять же, нейронка работает не на русском языке, а название у английских слов могут иметь другое семантическое значение, и по итогу не всегда можно промт составить сходу. То есть ты всё равно тратишь на это значительное время, особенно если пытаешься сделать что-то интересное и красивое.

Поэтому здесь главное придерживаться четырех правил: 1 — готовь референсы, 2 — уточняй у нейросети, 3 — учи параметры, 4 — выделяй четкие архитипы.

Референсы — это важно. Чем лучше Midjourney понимает, что вам нужно, тем выше вероятность получить желаемый результат. К счастью, нейросеть умеет «съедать» референсные изображения и учитывать их при генерации.

То есть нейросеть берет в расчет визуальную часть промта и при генерации просто опирается на картинку, которую ему даётся. Но при этом это не гарантирует что он сгенерит что-то похожее и если давать какой-то объект без надлежащего описания, которого нет в его базе, придётся повозиться. Так что не всегда это спасает.

Не знаете, что хотите? Спросите у нейросети. В работе над роликами нередко бывало, что итоговое изображение не соответствовало текстовому запросу, даже если предварительно загружались референсы. В таких случаях выручала функция Describe: просто загрузите изображение, и Midjourney опишет, что она на нём видит. После чего уже составляйте промт по описанию её «видения».

Учите параметры. Они вам пригодятся, много раз, очень много раз, говорю по своему опыту. Можно написать изумительный, вот просто безупречный промт, но есть нюанс — без дополнительных параметров вы не получите идеальный вариант.

Нейросети — инструмент, а не полностью автоматизированный сотрудник

И это стоит понять в самом начале. Чтобы получить достойный результат, нужно изучить кучу материалов, постоянно экспериментировать и повышать навыки. Если кто-то говорит вам, что это "просто нажать кнопку и готово" — вежливо улыбнитесь и идите дальше.

И помните, что нейросети — это не про точность, а про "примерно то, что вы хотели, но с сюрпризом". Доделывать за ними всё равно приходится. Объём доработок зависит от ваших навыков. В моем случае удаётся добиться результата за два-три прохода, и это считаю маленькой победой.

Если планируете использовать нейросети в работе, закладывайте в два-три раза больше времени, чем кажется нужным, и готовьтесь к тому, что совершенство недостижимо. Но когда вы наконец получите тот самый кадр, о котором мечтали, вы убедитесь, что это того стоило. Наверное.

-21