Нейросети уже умеют генерировать видеоролики.
Да, пока еще не так хорошо, как текст или картинки. У нейросетей для генерации видео есть серьезные ограничения: они не могут создать ролик длиннее нескольких секунд, а уровень реализма пока далек от какого-нибудь Midjourney. Сгенерировать одну хорошую картинку — уже непросто. А в видео надо не только создавать множество кадров, но и сделать так, чтобы они соотносились друг с другом.
Но можно оценить возможности сервисов. Расскажу про четыре нейросети, которые помогут сделать видео уже сейчас.
Нейросети для генерации видео
- Runway ML Gen-2
- Genmo
- Pika
Что умеет: генерирует видео по текстовому запросу, по картинке или по запросу и картинке
Поддерживает ли русский язык: нет
Сколько бесплатных попыток: 105 секунд видео на один аккаунт
Что дает подписка: больше генераций, улучшение качества и экспорт без водяного знака от 12 $ (1197 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4
2. Genmo
Что умеет: генерирует видео по текстовому запросу или картинке
Поддерживает ли русский язык: интерфейс на английском, но промпты понимает на русском
Сколько бесплатных попыток: ежедневно по 25 видео продолжительностью 3 секунды
Что дает подписка: больше генераций и экспорт без водяного знака за 10 $ (998 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4
3. Pika
Что умеет: генерирует видео по текстовому запросу, картинке и видео
Поддерживает ли русский язык: интерфейс на английском, но промпты понимает на русском
Сколько бесплатных попыток: три ролика по три секунды в день
Что дает подписка: больше генераций и экспорт без водяного знака стоит 8 $ (798 ₽) в месяц, оплатить с российской карты нельзя
В каком формате экспортирует: MP4
Раньше сервис был известен как Pika Labs и был доступен только в Discord без лимитов. Именно поэтому в соцсетях расходились гифки из этого сервиса. Теперь у него появилась полноценная веб-версия, но с ограничениями по генерациям.
4. Stable Video Diffusion
Что умеет: генерирует видео по картинке и текстовому запросу
Поддерживает ли русский язык: интерфейс на английском, промпты понимает на русском
Сколько бесплатных попыток: от 13 до 15 видео по 4 секунды в день
Что дает подписка: ее нет, но можно докупить 50 генераций за 10 $ (998 ₽) или 300 генераций за 50 $ (4988 ₽), оплатить с российской карты нельзя
В каком формате экспортирует: MP4
Как писать запросы для нейросетей, генерирующих видео
Почти каждый сервис предлагает написать текстовый запрос — то есть описать результат, который вы хотите получить. Ютубер Theoretically Media придумал схему для промптинга, которая подходит для большинства нейросетей, генерирующих видео. Вот как она выглядит:
Стиль — камера — объект — действие — окружение — освещение.
В каждом параметре нужно указать по одному слову или фразе и выстроить из них цепочку. Это и будет промпт. Вот какие слова можно использовать:
- Стиль: cinematic action (сцена из фильма), animation (анимация), black and white film (черно-белая пленка).
- Положение камеры или тип объектива: wide angle (широкий угол), close up (крупный план), long shot (общий план).
- Объект: woman with red hair (рыжая женщина), siamese kitten (сиамский котенок), lonely house (одинокий дом).
- Действие: walking (идет), smiling (улыбается), rolling (катится).
- Окружение: rooftop (крыша), medieval castle (средневековый замок), cityscape (городской пейзаж).
- Освещение: sunset (закат), warm lighting (теплый свет), moonlight (лунный свет), studio lighting (студийный свет).
Чтобы не тратить бесплатные генерации впустую, при написании запросов стоит учитывать ограничения сервисов. Вот с чем нейросети еще плохо справляются:
- Ошибаются в сложных действиях — драках, перекатах, полетах и другом экшене. Нейросети умеют рисовать простые действия: «смотрит в сторону», «бежит», «говорит».
- Не умеют создавать крупный план. В большинстве сервисов получаются пугающие результаты. Камера выставляется настолько близко к объекту, что сложно представить, для чего подобное можно использовать.
- Не могут генерировать реалистичных людей. Если вам нужен ролик с человеком, то загрузите свою картинку — сгенерированную в нейросетях или фотографию. А чтобы видео приблизилось к реализму, добавьте в запрос слово «гиперреализм» — hyperrealistic.
Скорее всего, нереалистичное изображение людей — вопрос времени. Создатели Midjourney за пару лет отучили нейросеть рисовать лишние пальцы, а Firefly от Adobe вовсе способна генерировать картинки, которые не отличить от стоковых фото.
Для честного сравнения я протестировала все нейросети на трех одинаковых запросах:
- Окружение: cinematic, long shot, chilly winter day, lonely village, dusk — одинокая зимняя деревушка в сумерках.
- Реалистичный портрет человека: cinematic action, long shot, beautiful bartender girl pouring a drink, bar, warm lighting — кадр из фильма, девушка-бармен наливает напиток, теплый свет.
- Мультяшный экшен: animation, wide shot, superhero in blue suit jumping from a roof of a skyscraper, sundown — анимация, широкоугольная камера, супергерой в синем костюме прыгает по крышам небоскребов на закате.