Звучит забавно, но с этими новыми "нано бананами" и моделью Veo 3 вы теперь реально можете стать кем угодно. Хоть роботом, хоть Шреком, хоть той самой бабушкой у подъезда. И самое главное - делать видео с собой, которые цепляют зрителя буквально с первых секунд скроллинга. Вы наверняка видели такие ролики: человек говорит в камеру, а потом бац - и плавно мутирует в монстра, продолжая свою речь. Выглядит как дорогой голливудский CGI, а на деле собирается на коленке за один вечер. Я решил проверить, как это работает на практике, и собрал для вас полный гайд без лишней воды. Спойлер: результат меня реально удивил.
Для эксперимента я решил использовать довольно мощный стек нейросетей: Nano Banana и CDream 4.0 для полной перерисовки внешности, Veo 3.1 Fast для анимации и липсинга (чтобы персонаж говорил моим голосом), Kling 2 Turbo для склейки перехода и ElevenLabs для звукового оформления. Казалось бы, куча инструментов, можно запутаться и потратить состояние на подписки. Но тут есть лайфхак. Чтобы не бегать по разным сайтам и не мучиться с настройкой VPN, я использую агрегатор SYNTX AI. Там все эти модели собраны в одном окне, что дико экономит время и нервы.
Все начинается с базы. Я записал обычное вступление на камеру. Ничего сложного, просто речь. Определился, что трансформация произойдет в самом конце фразы. Логика тут простая: мы берем этот последний кадр видео и делаем скриншот. Именно этот стоп-кадр станет нашей отправной точкой. Его мы будем скармливать нейросетям для генерации новой личности.
Дальше начинается магия редактирования. Нам нужно изменить внешность, но сохранить композицию кадра. Тут на арену выходят Nano Banana и CDream. Обе эти сетки отлично подходят для редактирования изображений. Я загрузил скриншот в Nano Banana и написал промпт: "сделай мне вместо парня в синей майке реалистичного гоблина, рваные лохмотья, стиль фотореализм, гипердетализация". Тот же самый запрос я отправил в CDream для сравнения.
Результат ждать пришлось всего пару секунд. И вот тут интересный момент. Обе нейронки справились отлично, но лично мне больше зашел вариант от CDream. Гоблин получился каким-то более естественным, живым, да и качество картинки повыше. Так что для дальнейшей работы я выбрал именно его. Но Nano Banana тоже не списывайте со счетов, для других стилей он может подойти лучше. Кстати, удобно, что в SYNTX AI можно быстро переключаться между этими моделями и выбирать лучший вариант без лишних кликов, сравнивая результаты лоб в лоб.
Теперь у нас есть статичная картинка гоблина. Но нам нужно, чтобы он ожил и начал говорить. Для этого идеально подходит Veo. В настройках я выбрал модель Veo 3.1 Fast. Рекомендую именно Fast - это и дешевле, и быстрее, а качество для соцсетей более чем достойное. Соотношение сторон ставим горизонтальное, а во взаимодействии выбираем "кадры". Загружаем нашего сгенерированного гоблина и пишем сценарий. Я ввел запрос, где указал, что гоблин должен злобно усмехаться, говорить в камеру на русском языке (без субтитров, но с нотками зловещего голоса) и в конце ткнуть пальцем в экран. Жмем кнопку и ждем.
Veo 3 выдал видео. Получилось круто: гоблин реально говорит, мимика совпадает. Чтобы довести картинку до идеала, я прогнал полученный результат через апскейлер (например, Topaz). Обычно я ставлю разрешение 4К и, что важно, увеличиваю частоту кадров до 60 fps. Это делает движения максимально плавными, убирает типичное нейросетевое дрожание. Topaz можно бесплатно скачать и установить на компьютер, это не проблема.
Итак, у нас есть два куска: мое исходное видео и видео с говорящим гоблином. Теперь самое сложное - сшить их так, чтобы это выглядело как магия, а не как склейка в Paint. Нам нужен качественный морфинг. Для создания таких переходов сейчас лучше всего подходят Kling и Hailuo. У них разный характер: Kling делает переходы более сдержанными и качественными, а Hailuo часто выдает безумные и непредсказуемые трансформации. Тут уже дело вкуса. Я выбрал Kling 2 Turbo.
В режиме Image-to-Video у нас есть возможность задать начальный и конечный кадры. Начальным ставим мой скриншот из первого видео, конечным - первый кадр видео с гоблином. В промпте нужно максимально подробно описать процесс мутации: "объект резко вздрагивает, кожа начинает зеленеть пятнами, проступают вены, лицо искажается болью". Если лень придумывать описание, можно попросить GPT написать промпт для эффектной трансформации и просто скопировать его.
Kling выдал очень плавный и логичный переход. Я для интереса попробовал Hailuo - там вышло эффектнее, но слишком хаотично, для моей задачи не подошло. Полученный кусочек морфинга я закинул в видеоредактор (я работаю в Premiere Pro) между двумя основными клипами. Но вот незадача: в сыром виде переход выглядит слишком медленным и затянутым. Теряется динамика. Решение простое - speed ramping, или изменение скорости. Я нашел точку самой активной трансформации и ускорил этот участок в несколько раз. Весь переход должен занимать максимум 2-3 секунды. Вот теперь это смотрится бодро.
Но картинка - это только половина успеха. Если смотреть видео без звука, оно кажется пустым. Нужен саунд-дизайн. У Kling есть функция генерации звуков, но она работает через раз. В моем случае звук получился так себе, какой-то невнятный шум. Поэтому я пошел в генератор звуковых эффектов ElevenLabs. Там можно создать все что угодно, просто описав словами.
Я посмотрел на свой переход и понял: нужен звук "Whoosh". Это такой резкий свистящий звук быстрого движения воздуха. В ElevenLabs я так и написал: "whoosh". Выбрал длительность 3.5 секунды, чтобы был запас. Нейронка выдала четыре варианта, я выбрал самый сочный. Еще мне показалось, что в момент превращения нужен звук резкого выдоха. Сгенерировал "короткий кинематографический выдох взрослого мужчины".
В редакторе наложил эти звуки на момент стыка. И вот теперь пазл сложился. Резкий свист, выдох, визуальная трансформация - все работает на эффект. Зритель даже не успевает понять, как это произошло, но это цепляет внимание.
Что мы имеем в итоге? Схема рабочая и, честно говоря, доступная каждому. Вам не нужно быть гуру After Effects. Достаточно понимать логику: снял исходник, сгенерировал персонажа, оживил его через Veo, склеил через Kling и добавил звука. Все топовые нейронки для этого (Veo, Kling, GPT, CDream) собраны в SYNTX AI, так что техническая часть вопроса решается элементарно. Главное тут - ваша фантазия. Можно превращаться в кого угодно и создавать контент, который реально выделяется в ленте. Пробуйте, экспериментируйте )