Листаешь ленту вечером, а там говорящий помидор рассуждает о смысле жизни. Через пять секунд морковка флиртует с огурцом. Под каждым роликом полтора миллиона просмотров. Знакомая картина? Я долго на это смотрел и думал, что за такой анимацией сидит студия с десятком художников.
Спойлер: там работает один человек с ноутбуком.
На прошлых выходных я решил протестить эту тему. Закрылся в комнате на пару часов и собрал два мультика.
Первый получился про хитрого апельсина, который продавал зрителю свои витамины.
Второй вышел совсем смешной, классический служебный роман между бананом-боссом и яблоком-секретаршей.
Жена посмотрела и сказала, что я сошёл с ума 😄 Зато реакция бомбическая.
Сейчас распишу всю схему детально. Без воды.
Что вообще нужно для старта
Тут многие сливаются ещё на этапе подготовки. Нашёл одну нейросеть, нашёл вторую, у каждой своя подписка, везде нужная зарубежная карта и куча денег, чтобы везде оплатить свой тариф.
Сейчас вся моя работа крутится внутри Syntx AI. Это агрегатор, где под одной крышей живут все нужные нейросети и модели по ОДНОЙ подписке. Заходишь через сайт или Telegram-бот и выбираешь нейронку. Оплачивать всё можно российской картой или криптой без танцев с бубном.
Из конкретных моделей мне нужны три:
- Nano Banana Pro для большинства картинок
- Seedream для случаев, когда первая капризничает из-за цензуры
- Veo 3.1 Fast для оживления статичных кадров
Плюс отдельно бесплатный агент в ChatGPT под названием Object Talk. Этот товарищ пишет промпты вместо меня.
Где брать сюжеты, чтобы не выдумывать с нуля
Самый рабочий лайфхак: открываете TikTok и смотрите, что уже стреляет. Не воровать целиком, а подсматривать механики. Несколько форматов, которые сейчас в топе.
Сериалы с продолжением. Тот же роман босса и подчинённой растягивается на десять серий, каждая собирает миллион. Зрителю интересно, чем закончится. Работает в любой нише от мелодрамы до триллера.
Польза в обёртке мультика. Оживший овощ рассказывает про свои свойства. Звучит банально, но именно эти ролики массово залетают в рекомендации.
Узкие темы для своих. Видел канал, где автор оживляет ресницы и учит за ними ухаживать. Аудитория небольшая, но супер вовлечённая.
Как агент превращает идею в готовый промпт
Открываете чат с Object Talk и максимально подробно описываете задумку. Например, я ему писал так: «Сцена в офисе. Босс банан, секретарша яблоко. Пятница, рабочий день кончается. Он намекает на ужин. Сделай два промпта, один для картинки в Nano Banana Pro, второй для анимации в Veo 3.1.»
Агент думает несколько секунд и выдаёт два полотна текста. Первое описывает картинку с её стилистикой и освещением. Второе настраивает движение и реплики. Если английский не родной, прогоните через переводчик и работайте уже с русской версией. Так проще править нюансы.
Битва моделей: Nano Banana против Seedream
Тут начинается интересное. Я обычно запускаю обе нейросети параллельно с одинаковым промптом. И каждый раз вижу одну картину.
В сцене с офисным романом я прямо прописал секретарше декольте. Подчеркнул это в промпте дважды. Nano Banana Pro упёрлась рогом и рисовала мне яблоко в строгой блузке под горло.
Никаких намёков на флирт. Seedream же выдала ровно то, что я просил, причём с первой попытки. У неё цензура заметно мягче.
Но и Seedream иногда глючит. На первой генерации мой банан-руководитель вышел в каком-то странном свитере вместо костюма. Я вернулся к агенту, дописал уточнение про чёрный пиджак и белую рубашку, перегенерил. Картинка получилась идеальная. Несколько итераций это норма, не паникуйте.
Анимация в ИИ без слива бюджета
Скачиваете готовую картинку и идёте в раздел видео в Syntx AI. Выбираете Veo 3.1 Fast, формат 9:16, длительность 8 секунд. Загружаете кадр, вставляете промпт от агента, жмёте кнопку.
Теперь про экономику. Обычная Veo 3.1 жрёт 119 токенов за восемь секунд. Версия Fast обходится в 19. Разница в шесть раз, а качество отличается процентов на пятнадцать. Я всегда беру Fast и ни разу не пожалел.
Важный момент про язык. Если просто написать реплики кириллицей, нейросеть может озвучить их на английском или вообще на марсианском. Возвращайтесь к Object Talk и просите дописать в промпт явное указание: «персонажи говорят именно на русском языке». Эту фразу нужно повторить два-три раза. Тогда Veo всё понимает правильно.
Подводные камни, о которых не пишут
Veo любит путать реплики между героями. Банан вдруг открывает рот и оттуда вылетает женский голос про мужа. Лечится перегенерацией.
Нейросеть додумывает то, чего нет в кадре. Был у меня случай: на исходнике голова яблока попала в кадр наполовину. После анимации модель решила, что там должны быть пышные розовые волосы. И нарисовала. Кадр пошёл в корзину. Урок простой: следите, чтобы персонажи помещались целиком.
На одну удачную сцену уходит три-четыре генерации. На сложную может уйти семь. Это рабочий процесс, не баг.
Финал и звук
Голос от Veo звучит механически, я зову его «яичным». Если не нравится, идёте в раздел аудио в Syntx AI сайт или их Телеграм-бот, открываете ElevenLabs, во вкладке Voice выбираете подходящий голос с фильтром по русскому языку. Я перебрал штук пять, остановился на Викторе для апельсина.
Дальше монтаж в любом редакторе на телефоне. Кидаете музыку фоном. Добавляете лёгкий зум процентов на пять. Склеиваете три клипа по шесть секунд каждый. Получается восемнадцать секунд готового ролика. Стыки прячутся щелчками или короткими свуш-эффектами.
Вот и вся механика. Берите идею попроще, начинайте с одного героя, не лезьте сразу в пятиминутки. Через неделю будете штамповать ролики на автомате.