7 подписчиков

Как создавать видео в нейросетях: алгоритмы, инструменты и лайфхаки от практика

16 апреля 202516 апр 2025

5 мин

На моём канале Нейрохудожника в телеграм, задали мне вопрос. Каждый вторник проходит рубрика «Спаси мой дедлайн»! Разбираю тонкости работы с ИИ: от настройки нейросетей до неочевидных лайфхаков, промтов и т.д. Вопрос следующий: Доброго времени суток! Делаю клип с нейросетями, сталкиваюсь со сложностью консистентности объектов и персонажей (клинг 2.0 еще не успел опробовать. Какой алгоритм лучше работает для данной задачи? Сейчас я вижу это так: 1) генерируем отдельно объекты (в моем случае автомобиль и салон этого автомобиля), субъекты (7 уникальных персонажей). 2)Генерируем локацию. С помощью ai inpaint функций это все размещаем таким образом как надо на локации (фотошопом не владею совсем) 3)Работаем через image2video, загружая изначально созданные сцены в условный Клинг Может алгоритм не совсем корректен или не очень оптимально подходит? Как делают это квалифицированные специалисты?) Так же очень очень хотел бы узнать в каких нейронах какой функционал можно получить наивысше

Вопрос следующий:

Доброго времени суток! Делаю клип с нейросетями, сталкиваюсь со сложностью консистентности объектов и персонажей (клинг 2.0 еще не успел опробовать.

Какой алгоритм лучше работает для данной задачи?

Сейчас я вижу это так:

1) генерируем отдельно объекты (в моем случае автомобиль и салон этого автомобиля), субъекты (7 уникальных персонажей).

2)Генерируем локацию. С помощью ai inpaint функций это все размещаем таким образом как надо на локации (фотошопом не владею совсем)

3)Работаем через image2video, загружая изначально созданные сцены в условный Клинг

Может алгоритм не совсем корректен или не очень оптимально подходит? Как делают это квалифицированные специалисты?)

Так же очень очень хотел бы узнать в каких нейронах какой функционал можно получить наивысшего качества?

Сейчас генерирую объекты и субъекты в 4о/imagen 3 в связи с почти идеальным пониманием промта. Промт вытачиваю через ChatGPT.

Локацию либо генерировать тем же клингом сразу при создании видео 16:9 и потом использовать стоп кадр с видео (потому что у клинга более кинематографично выходит) либо в тех же 4о/imagen

Итоговые вопросы:

1) Где еще было бы неплохо генерировать изображения и объединять их в сцены?

2) Пользовались ли kling elements и рекомендуете ли эту функцию? Как будто консистентность в этой функции на высоком, но недостаточном уровне.

3) Оптимальный ли это алгоритм создания клипа? (Не учитывая пост обработку в premiere pro условном)

Давайте разбираться...

Гайд для нейрохудожников и видео-креаторов

Проблема консистентности: почему объекты и персонажи «плывут»?

Главная сложность при работе с нейросетями — сохранение пропорций, стиля и деталей объектов/персонажей между кадрами.

Алгоритм создания клипа: от AI-Иллюстрации до анимации

1. Генерация изображения

Идеальный старт: создавайте персонажей вместе с их окружением (например, автомобиль + человек в нём). Это снизит риски несоответствия пропорций, которые бывают, когда используете inpaint или фотошоп.

Инструменты:

Midjourney 7.0 –отлично работает с реалистичными изображениями, качество отменное, есть встроенный апскейл (не скажу, что он сильно повышает качество картинки, но лучше, чем вообще без него), также есть возможность удалить или добавить объект на изображение (т.е решили мы что на нашем изображении вместо человека на заднем плане, должна быть собака, заменили, или вообще человека не должно быть, убрали), при этом изображение осталось гармоничным. Не упускаем из виду возможность отдалить персонажа, т.е дорисовать его и фон вокруг него, также без нарушений композиции + использования sref или персонализированного стиля, даёт возможность сделать единый стиль.

Лайфхак:

Промты шлифуйте через ChatGPT или DeepSeek, так избежите слов паразитов, а со временем научитесь писать сами, но нейросети не всегда корректно работают с промтами, поэтому все же нужно знать формулы промтинга.

Например, вот мой промт:

Реалистичный седан на фоне гор, салон в стиле люкс с кожей цвета экрю, заднее сиденье занимает мужчина 45 лет в костюме, детализированные глаза, лицо, морщины, ультра детализация, кинематографический снимок, 8k.

При таком промте, будет лицо крупным планом, показываю ниже.

И тут, нам как раз пригодится миджорни со своим zoom х2 или х1,5. Он не всегда дорисовывает корректно, но это лечится количеством генераций (показываю ниже)

Мужчина сидит в машине на заднем сиденье и смотрит в окно

Когда вы накидываете много деталей и аксессуаров в изображение, тем самым перегружаете его, делаете для анимации слишком сложным.

Важно: Не генерируйте фон отдельно, если в кадре есть динамика (например, движущийся автомобиль).

2. Анимация

Для меня топ 1 остаётся KLINGAI, но опять же смотря какие задачи, где-то Pika хороша, а где-то Runway. Сейчас на рынок вышел Higgsfield, который тоже даёт отменное качество изображений и видео. Можно полноценно делать изображения и видео сразу в нём, кинематографичность, и не только, обеспечена, но с промтами надо подстроиться.

Лайфхак: если изображение слишком тёмное, нейросеть может не различить детали и соответственно будут потери, также при анимации не пишите слишком сложные промты с несколькими действиями. Идеально: 1-2 действия не противоречащие друг другу. Лучше сделать несколько кадров с одним изображением, чем барахтаться потом с перегенерацией.

Kling Elements: когда использовать, а когда нет

— Идеален для плавных переходов между кадрами

— Хорошо вписывает объекты в сложные фоны (дым, огонь, брызги воды).

Использую его постоянно, отлично работает, если нужно сделать эффект (переход) на склейку двух кадров, а также вместить один объект в другой.

НО если вы помещаете персонажа в локацию через элементы, объект видоизменится в 95% случаев, поэтому если вам важно сохранить объект в том виде, в котором он есть со всеми деталями на изображении, мы создаём персонажа уже с локацией.

Лайфхак: перед использованием Kling Elements удаляйте фон у персонажа (даже если он однотонный), так нейросеть меньше нафантазирует и не будет риска смешивания фонов, от промта тут этот момент никак не зависит.

Как сохранить консистентность лиц в image2video

Проблема: нейросети часто искажают лица при анимации.

Решение:

1.В негативных промтах добавляйте: «distorted face, change the face, unnatural eyes, asymmetric features» - работает не всегда, но бывает, помогает.

2. Детализируйте нужные вам объекты сразу при создании изображения. Делайте изображение в хорошем качестве, будет мазня, эта мазня будет и при анимации.

Для замены лица на реальное:

— Тренируйте LoRA-модель на основе 20-30 фото человека (фото в разных ракурсах +- один возраст, а не так что где-то фото в 20, где-то в 30 лет).

— Избегайте простого face-swap — это убивает качество и детализацию лица. Особенно если на нём есть яркий макияж или другие не свойственные людям с рождения элементы.

Повышение качества изображения до 4k и 8k:

Тут две нейронки: Topaz и Magnific, прогоняем изображения или уже конечное видео через них. В случае с изображением, конечно качество будет на много выше чем, если апскейлить готовое видео. Манипуляция не из бюджетных, но если нужно супер качество, лучше них никто не сделает.

Итоговый чек-лист

1. Генерируйте объекты и фон вместе, где это возможно.

2. Для анимации используйте Kling, Pika, Higgsfield, Runway.

3. Kling Elements — только для переходов или, если нет привязки к точности персонажа.

4. Лица сохраняйте через LoRA, а не свапы.

5. Апскейл делайте на этапе постобработки.

P.S. Не бойтесь делать 5-10 итераций для одного кадра. Нейросети, как капризные художники: иногда шедевр рождается с пятой попытки, а иногда не рождается совсем.

Пожелаю удачи в создании ваших ии видео, и забегайте на мой канал в телеграм.