70 подписчиков

Тест видеонейросетей: Veo 3.1 vs Sora 2 vs Kling 3.0 на реальном проекте

3 дня назад3 дня назад

6 мин

Я протестировал инструмент на трёх проектах подряд, прежде чем делать выводы. В этот раз речь шла не о камерах или свете, а о генеративных видеомоделях. За последние восемь месяцев я внедрил нейросети в свой пост-продакшн пайплайн, и сейчас могу говорить о цифрах: себестоимость часа монтажа упала с 4200 до 2900 рублей. Но это произошло не сразу — только после калибровки под конкретные задачи и отсева инструментов, которые дают непредсказуемый результат. Недавний кейс: документальный фильм о стеклодувном производстве, где нужны были плавные макро-съёмки расплавленного стекла. Съёмочная группа не могла работать в условиях высоких температур, поэтому генеративная видеография стала единственным вариантом. Я протестировал Veo 3.1, Sora 2 и Kling 3.0 на идентичных промптах, чтобы понять, какая модель войдёт в мой мастер-пайплайн. Понимаю скепсис, сам был в нём полтора года. Но когда речь заходит о бюджетах и сроках, цифры решают всё. Перед запуском генерации я установил жёсткие параметры к

Оглавление

Методология: как тестировались нейросети
Veo 3.1: предсказуемость как главное преимущество
Sora 2: кинематографичность против артефактов

Недавний кейс: документальный фильм о стеклодувном производстве, где нужны были плавные макро-съёмки расплавленного стекла. Съёмочная группа не могла работать в условиях высоких температур, поэтому генеративная видеография стала единственным вариантом. Я протестировал Veo 3.1, Sora 2 и Kling 3.0 на идентичных промптах, чтобы понять, какая модель войдёт в мой мастер-пайплайн. Понимаю скепсис, сам был в нём полтора года. Но когда речь заходит о бюджетах и сроках, цифры решают всё.

Методология: как тестировались нейросети

Перед запуском генерации я установил жёсткие параметры калибровки. Все три модели получили одинаковые текстовые описания сцен: "макро-съёмка капля расплавленного стекла, падающая на металлическую поверхность, физически корректное отражение, 24 fps, кинематографичное освещение, отсутствие артефактов на краях". Разрешение — 1080p для всех, битрейт анализировался отдельно, так как это критично для колорграммы и дальнейшего композитинга.

Каждая модель генерировала по десять вариантов одной сцены. Я оценивал три критерия: физическую корректность движения (не прерывается ли логика падения), предсказуемость результата (совпадает ли выход с референсом в голове) и количество артефактов, требующих ретуши. Последний пункт особенно важен: если нейросеть выдаёт ролик, который нужно часами чистить в After Effects, она не подходит для моего пайплайна. Время специалиста — это себестоимость.

Отдельно отмечу вопрос повторяемости. В документалистике важна консистентность: если я генерирую серию кадров для одной сцены, они должны иметь единую цветовую температуру и характер движения. Разброс в стилистике между генерациями — это риск, который я закладываю в бюджет как непредвиденные затраты.

Veo 3.1: предсказуемость как главное преимущество

Veo 3.1 показал себя как инструмент с максимально предсказуемым результатом. Из десяти сгенерированных клипов семь оказались технически безупречными: физика падения капли соответствовала реальности, отражения на металле не "плавали", края объекта оставались чёткими. Это редкость в мире видеогенерации, где обычно приходится выбирать "меньшее из зол".

Битрейт у Veo 3.1 оказался стабильным — около 15 Мбит/с для 1080p, что приемлемо для мастер-файла с последующим апскейлом. Цветовой профиль модели близок к Rec. 709, что упрощает матчинг с реальным материалом, снятым на Sony FX6. Я записал это в плюс, так как не люблю тратить время на конвертацию колорграмм.

Минус — кинематографичность. Картинка выглядит "правильно", но без характера. Для документалки это может быть плюсом (нет "глянца"), но для рекламных вставок потребуется дополнительный колоринг. В моём случае это подошло идеально: материал вписался в общую эстетику фильма о ремесле, где важна аутентичность, а не визуальные эффекты.

Sora 2: кинематографичность против артефактов

Sora 2 выдала самые "красивые" кадры. Освещение, глубина резкости, объёмные блики — всё это выглядело как кадр из высокобюджетного арт-хауса. Но при детальном просмотре обнаружились проблемы: в четырёх из десяти клипов капля деформировалась неестественным образом при ударе о поверхность, создавая эффект "жидкого металла", который не соответствовал физике стекла.

Артефакты на краях объекта — главная головная боль Sora 2. Модель любит "шуметь" на границах контрастных областей, что требует ротоскопии и маскирования в посте. Для моего проекта это означало дополнительные 45 минут на каждый кадр в Nuke. Пересчитаем: десять кадров — 7,5 часов работы композёра. Себестоимость вылетает в небо.

Тем не менее, три клипа из десяти оказались безупречными. Если вам нужен референсный кадр для статичной вставки или таймлапса, где физика менее критична, Sora 2 даёт результат, который не требует колоркоррекции. Но для последовательной съёмки с движением я бы пока воздержался от использования этой модели в продакшне.

Kling 3.0: баланс скорости и качества

Kling 3.0 занял золотую середину. Скорость генерации оказалась выше, чем у конкурентов: кадры рендерились в среднем на 30% быстрее, что важно при работе с дедлайнами. Качество движения уступает Veo 3.1 в вопросе физической точности, но превосходит Sora 2 в стабильности краёв.

Особенность Kling 3.0 — хорошая работа с текстурами. Металлическая поверхность в моём тесте выглядела убедительно, с правильными caustics и отражениями. Проблемы возникли с прозрачностью: стекло иногда теряло объём, становясь похожим на цветную воду. Но это корректируется на уровне промта — достаточно было добавить уточнение "thick glass, high viscosity", и артефакты пропали.

Битрейт у Kling 3.0 немного ниже — 12 Мбит/с, что даёт более компактные файлы, но требует осторожности при цветокоррекции. Я бы рекомендовал эту модель для быстрых задач, где не требуется идеальная физика, но важна скорость итераций. Для draft-версий или презентаций заказчику — оптимальный выбор.

Себестоимость и критерии выбора для пайплайна

Если вам нужна предсказуемость — а она вам нужна — вот критерии, по которым я распределил роли моделей в своём производстве. Veo 3.0 (стабильная версия, не путать с 3.1) я использую для финальных мастер-файлов, где критична физика. Kling 3.0 — для превью и промежуточных согласований. Sora 2 оставил для арт-проектов, где важна эстетика больше, чем документальная точность.

Пересчёт себестоимости показал интересную картину. При использовании только Veo 3.1 на проекте я трачу в среднем 15 минут на генерацию и выбор кадра плюс 10 минут на базовую цветокоррекцию. Итого: 25 минут на рабочую единицу. С Sora 2 время вырастает до 40 минут из-за необходимости чистки артефактов. Разница в 15 минут на кадре при сорока кадрах в проекте — это десять часов рабочего времени. При ставке пост-продакшн-специалиста в 3000 рублей в час получаем экономию в 30 000 рублей за счёт правильного выбора инструмента.

Важный нюанс: все три модели требуют различной формулировки промптов. Veo 3.1 понимает технические термины типа "24p cinematic motion", Sora 2 лучше реагирует на описательную прозу с упором на настроение, а Kling 3.0 требует конкретики по материалам и физическим свойствам. Это нужно учитывать при составлении технического задания для команды.

Итоги и интеграция в рабочий процесс

После трёх недель тестирования я выстроил следующий пайплайн. На этапе пре-продакшна использую Kling 3.0 для быстрого превизуализации сцен — это позволяет показать заказчику динамику до съёмок. Для финальных вставок, где нельзя ошибиться с физикой материалов, работаю с Veo 3.1. Sora 2 остаётся в резерве для тех случаев, когда нужен "визуальный удар" и артефакты можно скрыть за глубиной резкости или VFX.

Ключевое открытие: нейросети сейчас — это не замена съёмочной группе, а инструмент расширения библиотеки. Они экономят время там, где физически невозможно поставить камеру, или где стоимость съёмки в спецусловиях превышает бюджет пост-продакшна. Главное — чётко понимать ограничения каждой модели и закладывать их в расч

ёт себестоимости.

Для тех, кто работает из России и не хочет заморачиваться с VPN и иностранными картами, все три модели доступны на агрегаторе most-AI. Там же можно сравнить результаты генерации без необходимости покупать отдельные подписки у каждого разработчика. Это упрощает калибровку и позволяет тестировать разные подходы без дополнительных затрат на инфраструктуру.

https://most-ai.com/ai/video-generator?utm_source=vc&utm_medium=organic&utm_campaign=seo&utm_content=25903cd64c