Новый год уже на носу, и каждый раз встает вопрос: как оригинально поздравить друзей, коллег или детей, чтобы это не выглядело как пересылка заезженной открытки в Ватсапе. Сегодня я решил разобрать схему, как создать персонализированное видеопоздравление от самого Деда Мороза, используя связку современных нейросетей. Заодно и посмотрим, на что способна новая версия модели Avatar 2.0 от ребят из Kling AI. Спойлер: результат получается довольно интересным, хоть и не без нюансов.
Вся магия строится на трех этапах: придумать, нарисовать и оживить. И чтобы не бегать по десятку разных сайтов с VPN и сложной оплатой, я обычно использую агрегатор SYNTX AI, где все необходимые инструменты собраны в одном месте. Но давайте по порядку.
Этап первый: готовим базу
Прежде чем мы начнем что-то анимировать, нам нужно создать саму картинку нашего сказочного персонажа. И тут нельзя просто так взять и написать "дед мороз". Нужен качественный промт (описание). Я перехожу в ChatGPT или любую другую текстовую нейронку и пишу запрос. Моя цель - сделать видео вертикального формата, чтобы его было удобно смотреть на смартфоне в сторис или рилс. Поэтому я прошу чат составить подробное описание для генерации изображения именно с учетом этих пропорций.
Получив готовый промт на английском, мы переходим к рисованию. В исходном варианте я использую модель Nano Banana Pro (ее можно найти на платформе , внутри SYNTX AI для удобства). Вставляем наш текст, и вот тут важный момент: в настройках обязательно выбираем соотношение сторон 9:16. Качество лучше сразу ставить 2К или 4К, чтобы при анимации лицо не рассыпалось на пиксели. Жмем кнопку создания, ждем пару секунд и скачиваем получившийся шедевр себе на устройство. Картинка готова, пока откладываем ее в сторону.
Этап второй: оживление в Kling
Теперь переходим к самому интересному - в нейросеть Kling. Ссылки искать не буду, вы и так знаете, как пользоваться поиском, но первым делом там нужно авторизоваться через кнопку "Try and Now". После входа мы попадаем на главную панель и сразу ищем новую фичу - Avatar 2.0. Это как раз то обновление, которое позволяет делать реалистичную анимацию лиц.
Процесс выглядит так:
- Нажимаем вкладку "My Avatars" и кнопку загрузки (Upload). Выбираем нашего свежеиспеченного Дедушку Мороза. Пока система думает и обрабатывает фото, мы можем заняться настройками.
- В категории я выбираю "entertainment" (развлечения). Никнейм можно писать любой, это чисто для вас, чтобы не запутаться в проектах.
- А вот в поле "Avatar Prompt" нужно прописать контекст. Я пишу на английском, что это "реалистичный Дед Мороз в его магической резиденции". Это поможет нейронке лучше понять, как должен вести себя персонаж.
Самое сложное - это голос. В библиотеке Kling есть куча пресетов. Я методом тыка нашел мужской голос, который по тембру идеально подходит нашему герою. И пусть вас не пугает, что интерфейс и примеры там на английском - эта модель отлично понимает и воспроизводит русскую речь. Настройки скорости (speech rate) я не трогаю, а вот эмоцию выставляю "Surprise" (удивление), чтобы дедушка выглядел более живым и радостным. Сохраняем аватара.
Этап третий: заставляем его говорить
Наш аватар появился в коллекции. Теперь нужно вложить в его уста слова. Тут есть два пути. Первый - просто написать текст в соответствующее поле. Я для теста набрал: "Дорогой Евгений, поздравляю тебя с Новым годом, пусть все твои желания сбудутся...". Второй путь - загрузить готовую аудиодорожку.
Честно говоря, встроенный синтезатор речи пока хромает с ударениями в русском языке. Фразы звучат немного роботизированно. Поэтому мой вам дружеский совет: лучше запишите голосовое сообщение сами или сгенерируйте голос через специализированные сервисы (тот же ElevenLabs, который тоже есть в SYNTX AI), а потом просто подгрузите этот файл в Kling. Так липсинк (движение губ) будет выглядеть намного натуральнее.
Финал и цена вопроса
Осталось выбрать качество. На бесплатном тарифе нам доступно разрешение 720p и 30 кадров в секунду. Если хотите кристальную четкость 1080p, придется раскошелиться на подписку. Сама генерация, кстати, удовольствие не из дешевых - один такой ролик съедает 44 токена. Это довольно много, учитывая, что попыток может понадобиться несколько.
Жмем заветную кнопку генерации и ждем. Что у нас получилось в итоге?
"Дорогой Евгений, поздравляю тебя..." - дедушка говорит, губы попадают в текст, мимика живая. Да, присутствует небольшое хаотичное движение камеры, такой "эффект оператора с дрожащими руками", но если поиграть с промтом и попросить камеру быть статичной, это можно исправить.
В сухом остатке мы имеем отличный инструмент. Kling Avatar 2.0 реально шагнул вперед. Теперь можно делать персонализированные поздравления, где Дед Мороз обращается к ребенку или другу по имени, и это выглядит почти как настоящее видеообращение, а не дешевая подделка. Главное - не ленитесь делать качественный исходник и работать со звуком.