Добавить в корзинуПозвонить
Найти в Дзене

Как собирать рилсы при помощи AI за 10 минут

Ранее писал, что запрос “ИИ, сделай красиво” работает плохо. И так во всех задачах: написание текста, генерация картинок, создание видео. Рассказываю как я борюсь с соблазном отдаться ИИ и строю четкий пайплайн. Начинаем со сценариев. Они не рождаются из воздуха, к сожалению. У меня есть инструкция, как писать сценарии роликов для разных формтатов: каким должен быть заход, основной текст, как формулировать финальный призыв, какие слова не использовать, где нужен акцент. Я начал с того, что было понятно мне, но по мере работы постоянно дорабатываю и меняю подход. Смотрю как делют конкуренты, анализирую что залетает из моих идей. Когда сценарий готов, он попадает в базу. В UI это выглядит как карточка ролика. Там лежит текст начала, основной текст, финальный призыв, тема, статус и вся служебная информация для сборки. Залетай в телегу, тут больше мясного контента На примере формата, который сейчас больше всего автоматизирован моя часть выглядит так: • Я открываю карточку и смотрю, что н

Ранее писал, что запрос “ИИ, сделай красиво” работает плохо. И так во всех задачах: написание текста, генерация картинок, создание видео. Рассказываю как я борюсь с соблазном отдаться ИИ и строю четкий пайплайн.

Начинаем со сценариев. Они не рождаются из воздуха, к сожалению. У меня есть инструкция, как писать сценарии роликов для разных формтатов: каким должен быть заход, основной текст, как формулировать финальный призыв, какие слова не использовать, где нужен акцент. Я начал с того, что было понятно мне, но по мере работы постоянно дорабатываю и меняю подход. Смотрю как делют конкуренты, анализирую что залетает из моих идей.

Когда сценарий готов, он попадает в базу. В UI это выглядит как карточка ролика. Там лежит текст начала, основной текст, финальный призыв, тема, статус и вся служебная информация для сборки.

Залетай в телегу, тут больше мясного контента

На примере формата, который сейчас больше всего автоматизирован моя часть выглядит так:

• Я открываю карточку и смотрю, что нужно снять на камеру: hook — начало ролика, cta — финальный призыв. Могу за один подход снять сразу пачку: например, 10 начал и 10 финалов для разных роликов.

• После съемки закидываю эти видео в нужные папки и пишу в Codex: “собери ролик 11”. В карточках уже есть текст основной части (делаем заранее)

Дальше работает уже не один промпт, а весь заранее подготовленный сетап. В проекте есть:

• инструкция как писать сценарии

• база сценариев

• папки для hook и cta

• библиотека видеовставок с описаниями

• папки с иконками и музыкой

• правила как вставлять заголовок, иконку и музыку в hook

• правила подбора видеовставок под текст, который я говорю

• правила произношения

• правила субтитров

• правила монтажа и переходов

• настройки сборки

Когда я прошу собрать ролик 11, система достает нужную карточку из базы. Из нее берется основной текст, hook, cta, тема ролика и формат.

Потом проверяются снятые видео. Система должна понять, какие файлы из папки относятся к этому ролику, и привязать нужное начало и нужный финал. Разметить метаданные.

Дальше основной текст готовится под озвучку. Там появляются паузы, замедления и правки произношения. Например, если сервис или английское слово читается криво, лучше исправить это правилом один раз, а не чинить каждый ролик руками.

После этого текст отправляется в ElevenLabs. Через API туда уходит текст, модель для озвучки, скорость, доп. настройки и словарь произношения. В ответ приходит аудиофайл.

Но аудио еще нужно превратить в монтажную основу. Поэтому система определяет, где какое слово звучит, и на этих таймингах строит субтитры. Они появляются не простыней, а короткими группами слов в ритм речи. Все это тоже стилизовано отдельно.

Дальше отдельный слой — видеовставки (broll).

У меня есть библиотека моих видео, 80 штук по 3-5 секунд: экран монитора, я и ноутбук, демо сайта, руки на клаве, просто природа или дорога, разговоры на камеру. У каждого файла есть описание: что в кадре, какая крупность, какая энергия, под какие темы он подходит.

Система смотрит на текст и выбирает вставки по смыслу. Если я говорю про резюме, вакансию или отклики — нужны одни кадры. Если про AI-процесс — другие. Если в тексте появляется “Сопровод”, нужно вставить продуктовый фрагмент, который я заранее записал.

Потом собирается план монтажа: где остается мое лицо, где появляется видеовставка, где должен быть заголовок, где иконка, где музыка, где приближение, где переход к финальному призыву.

После этого все склеивается в вертикальный mp4 файл.

Я хочу прийти к формату, где я открываю экран, система говорит что мне нужно снять на этой неделе. Я снимаю, закидываю в папку и говорю делай. На выходе получаю готовые файлы под каждый формат. Пока видится, что это реально, сейчас готово процентов 60.

Залетай в телегу, тут больше мясного контента