Найти в Дзене

Нейросеть Pika — магия генерации видео: шедевры для рекламы за секунды!

Оглавление

Мир медиа и контента стремительно меняется благодаря искусственному интеллекту, и Pika — один из инструментов, который активно способствует этим изменениям. С момента своего появления, Pika завоевал популярность благодаря высокой точности работы и множеству функций. Но как использовать этот сервис эффективно? Давайте разберём всё по порядку, как эксперт в области ИИ, готовый поделиться советами и мнениями.

Что такое Pika и как он работает?

Pika — это онлайн-сервис для анимации изображений и видеоредактирования с помощью нейросетей. Несмотря на недавний запуск, он уже завоевал популярность благодаря простоте использования и мощным возможностям. Если вы хотите оживить фотографии или внести изменения в видео без особых навыков, Pika станет вашим идеальным помощником.

Заходим в сервис и нас встречает демонстрация работ сервиса. Детализированные видео со множеством деталей и большим расширением очень похожие на профессиональные фильмы, правда по несколько секунд.

Кликаем по кнопке Try Pika и выбираем способ регистрации. Утверждается, что работает система без каких либо манипуляций IP адресом, но нам пришлось ее подключить, т.к. без этого нас выкидывало обратно на главную страницу без авторизации.

-2

Мы вошли через запись дискорда, вы можете зарегистрироваться через почту или гугл аккаунт. Кому как удобно.

-3

На главной странице нас встречает как в большинстве подобных сервисов галерея примеров работ других участников. В верхнем левом углу экрана можно переключаться между общей галереей (Explore) и нашей личной (My librar), которая начнет заполняться сразу после первой генерации.

-4

В нижней части экрана расположено текстовое поле для ввода команд, кнопка-скрепка для прикрепления исходного изображения или видео, а также три набора инструментов для работы с материалами.

Пройдемся по настройкам.

-5

Кликнув по кнопке настроек под полем для ввода промта можно выбрать:

  • направление движения камеры (Camera control: Pan, Tilt, Rotate и Zoom)
  • настройку пропорций из шесть вариантов соотношения сторон (Aspect ratio)
  • Negative prompt в буквальном переводе означает "отрицательная подсказка". Это перечень объектов или свойств, которые не должны присутствовать в создаваемом изображении.
  • Seed (зерно) - этот параметр показывает точку начала генерации. При выборе одной и той же цифры при неизменных прочих параметрах, результат будет примерно одинаковый. По умолчанию "зерно" каждый раз получается случайным образом, так как выбирается генератором случайных чисел. Однако вы можете указать его вручную или вставить значение, скопированное из данных конкретного изображения, созданного нейросетью ранее.
  • Consistency with the text определяет, насколько нейросеть стремится воспроизводить все детали, указанные в запросе. Чем ниже значение на этой шкале, тем меньше ИИ придерживается ваших инструкций и наоборот. Низкие значения предоставляют нейросети больше свободы, из-за чего изображения могут быть довольно необычными и содержать неожиданные элементы.
  • количество кадров в секунду (Frames per second). Отметим, что этот параметр не влияет на продолжительность создаваемого видео: вне зависимости от частоты кадров, длительность ролика составит 3 секунды.
  • регулировку степени анимации (Strength of motion).

С настройками всё понятно, можно переходить к практике. Возьмем для видео промт, который мы уже тестировали на другой нейросети, генерирующей видео, чтобы была возможность сравнить.

Coffee latte in a pumpkin cup on table, sunlight through window, halloween, realistic style

-6

Вводим текст и нажимаем на кнопку со звёздочкой (которая напоминает логотип Дзена). Начинается процесс генерации, и прогресс отображается в карточке видео — это очень приятная деталь для пользователей.

-7

Процесс занимает около минуты.

На выходе есть 4 варианта.
На выходе есть 4 варианта.

Три из них практически не шевелятся и только последний вышел как забавно улыбающаяся кружка.

-9

Смотрим, что мы с этим можем сделать.

-10

Retry — попробовать снова:

  • Кнопка Retry позволяет перегенерировать видео без удаления предыдущей версии, которая сохраняется под окном и доступна для просмотра.

Reprompt — переписать описание:

  • Кнопка Reprompt позволяет изменить текстовое описание без выхода из текущей генерации, но само видео при этом остаётся не редактируемым. Новый текст можно ввести в основном поле.

Add 4s — добавить 4 секунды:

  • Кнопка Add 4s увеличивает длительность ролика на 4 секунды, добавляя новые объекты, однако функция иногда работает с ошибками.

Upscale (скрыто под тремя точками) — увеличить разрешение:

  • Кнопка Upscale увеличивает размер кадра в 4 раза. После этого другие инструменты становятся недоступны, делая это финальным шагом редактирования.

Edit вызывает дополнительные настройки, которые появятся в нижней части экрана под окном ввода prompt:

Edit Modify region — изменить область:

  • Инструмент позволяет добавить или изменить объекты в видео. Для этого выделяется область и вводится описание изменений, однако результат может не совпадать с ожиданиями.

Edit: Expand canvas — расширить холст:

  • Позволяет изменить размер кадра, добавив к нему новые пропорции, дорисовав сцену на основе исходного кадра.

Edit: Lip Sync

  • позволяет провести синхронизацию движений губ с произносимыми словами.

Edit: Sound effects

  • позволяет открыть окно для ввода промта, специально для звуков. В первой генерации звуки создаются на основе основного промта. Если результат вас не устраивает, вы можете заменить их, подробно описав желаемый итог.

Итак, с настройками разорались.

Идем тестировать!

Не вышло с первого раза то, чего ожидали — не беда, ведь у кого всё сразу получается? Дубль два! Жмем Retry и ждем повторной генерации. Всё происходит в той же карточке видео, и самое крутое — первый вариант никуда не исчезает! Он аккуратно сохраняется под основным окном, и к нему всегда можно вернуться.

-11

Неплохой вариант вышел, хотя это не совсем то, что мы получали в другой нейросети по тому же запросу. Удлинить на 4 секунды могут только пользователи на платном тарифе, а мы будем тестировать дальше на коротышках.

-12

Дубль 3 и вот уже нейросеть опустила упоминание про тыкву, предлагая нам на кружке логотип Старбакс. На сколько это законно опустим в данный момент.

-13

Попробуем немного сменить начальные настройки, кликнув Reprompt. Изменим Consistency with the text до 20, чтобы нейросеть старалась больше следовать заданному промту. Добавим движение камеры и немного увеличим анимацию.

Теперь генерация запускается в новом окне предпросмотра. И вот результат.

Камера теперь перемещается, немного сменилась атмосфера и цветовая палитра. Но кружка, которую мы хотели в виде тыквы, так и не появилась, зато есть много микротыковок. Где он такие видел, интересно.

-14

Сделаем сразу несколько вариантов.

В целом неплохо. Напоминает сцену из какой-то игры или мультика. Но кружку-тыкву так и не сделала нейросеть.

-15

Возьмем самый последний вариант и жмем Edit. Попробуем изменить конкретную область Modify region. В появившийся изменяемый по размеру прямоугольник умещаем нужный объект и в текстовое поле вводим промт. Например, гамбургер на тарелке.

-16

К нашему удивлению ничего не появилось. Мы даже попробовали несколько раз, но максимальный результат это исчезновение пятна на столе.

-17

Вывод: данный инструмент работает пока не очень хорошо.

Попробуем дорисовать окружающую обстановку с помощью Expand canvas до квадрата 1 к 1.

-18

Удлинился стол, появилось окно на заднем плане.

Добавить движение губ можно только на платном тарифе.

А вот добавить музыку нам удалось. Неросеть сгенерировала 3 варианта озвучки.
А вот добавить музыку нам удалось. Неросеть сгенерировала 3 варианта озвучки.

Качество конечно не огонь, но соответствует заданным параметрам.

Итоговые результаты всех генераций вы можете увидеть в этом видео:

Еще одна функция этой нейросетки - генерация видео из уже имеющегося фото.

-20

Возьмем наше любимое кресло. Добавим промт: office chair shown from different angles in a bright office in bright daylight. Настройки как в предыдущей генерации.

Первый блин комом: кресло просто болтается и приближается.

-21

Сменим движение камеры и запустим еще раз.

Вот это уже неплохое начало видео, где можно рекламировать это кресло. Оно подойдет как для рекламы в ВК и Директе, так и для Авито.

-22

Увеличим его параметры до квадрата. Зачем-то нейросеть пририсовала сверху еще кусок обивки. Видимо решила, что так лучше.

-23

Итак, делаем выводы

Неросеть пока на стадии обучения, еще есть над чем работать, особенно с пониманием. Главное — не бойтесь экспериментировать и пробовать разные комбинации промптов и настроек. Чем больше вы будете использовать Pika, тем лучше будете понимать его возможности и создавать все более качественный контент.

Вам также может быть интересно: