65 подписчиков

Обзор нейросетей для создания видео в октябре 2023 года

10 октября 202310 окт 2023

151

4 мин

Оглавление

Synthesia.io
Visper.tech
designs.ai

Ну, что же, давайте посмотрим что они могут? С год назад я заглядывал в пару сервисов и это было печально. Давайте посмотрим, на что способны нейросети в конце 2023-го?

Я собираюсь прогуляться по существующим видео-нейросетям и везде сгенерировать что-то для примера. Так что, это обзор-прогулка. В каком порядке буду тестить, в таком и писать. Где надоест, там и остановлюсь.

Synthesia.io

Во всех обзорах оно на первых местах, но как по мне — отстой. Ориентирована на быстрое производство презентаций с говорящим диктором для бизнеса. Русский поддерживает, но по живости до английского ему пока далеко.

Бесплатно можно сгенерировать короткое видео — на выбор три шаблона. Видео падает в почту, но почему-то из 4х сгенерированных видео мне пришло только два. Каким образом на словах "и как мне позвонить Сереге" - появился Серега в кадре - волшебство и загадка. Или может, случайность, если вы в них верите. Итак, вот они.

Visper.tech

В общем-то отечественный аналог Синтезии от Сбера. Все просто, сходу понятно и довольно удобно. За исключением может, крохотного окошка для редактирования текста.

В бесплатном тарифе можно сгенерировать 2 минуты в месяц. Персонажей не много, 4 женских, 3 мужских, плюс разные костюмы. Можно загрузить свою фотку, будет ли она открывать рот в такт речи я не выяснил.

Соответственно есть с десяток русских голосов, можно вручную вставлять паузы, замедлять, ускорять... Но, все равно с живым человеком не спутаешь. Впрочем, можно также загрузить свое аудио. В пред-последнем слайде я загрузил свою фотку. Visper заставил ее шевелить губами, но разомкнуть их не смог. Напоминает Нео на допросе агентами. В последнем слайде - наоборот, текст я прочитал сам, а виртуальный персонаж открывает рот. Можно сказать что условно почти попадает.

Отдельная нота ненависти ui-дизайнеру за полуторастрочное текстовое окошко с огромным шрифтом и плавной прокруткой. С текстом работать неудобно. Реакция на знаки препинания не всегда предсказуема, но поколдовав можно добиться сносного произношения. Главное не увлекаться. Потому что, внезапно и без предупреждений можно наткнулся на лимит генерации голоса.

Когда же я набаловался и решил что достаточно, сгенерировать финальный ролик мне не удалось. Написал ночью в телеграм-чат-бот поддержки. В 6 утра ответили что, действительно, "есть сложности в работе сервиса, коллеги уже работают над исправлением".

Они работали ПОЛТОРА МЕСЯЦА! Я написал им в октябре, и к концу ноября они починили, но не до конца. И я наконец сгенерировал свою заветную одну минуту видео. Правда, начала и концы каждого слайда оказались обрезанными. Пришлось потратить вторую (и последнюю) минуту выделенного в месяц на бесплатном тарифном плане, чтобы сгенерировать еще один вариант, добавив в текст холостые слова для обрезки.

А в остальном, прекрасная маркиза, — очень неплохой и многообеещщающий отечественный сервис!

designs.ai

Этот сервис работает иначе. Он вообще не генерит никакое видео. Сеточка озвучивает текст и подбирает на свой вкус видеоряд из подходящих кадров своей коллекции. Всё потом можно редактировать. Но очень неторопливо. Не знаю, может ему нужен интернет пошустрее, я тут на 10 мегабитах всего... Каждую операцию ждешь минуту. Подзадолбался, пока сделал вот это вот.

Runway (GEN-2)

А вот это - уже оно. Это я и искал. Эта нейросеть действительно генерирует видео. Можно ей написать текстовый prompt, а можно дать исходную картинку. А можно и то и другое; и картинку и описать что в ней должно двигаться. Я попробовал оба способа. В обоих случаях довольно приблизительно.

Исходные картинки сделал в Midjourney. Сеть генерит кусочки видео по 4 секунды. Заставить кота моргнуть, поднять бровь или спрыгнуть со стола мне так и не удалось. Движение дыма из чайника и мерцание огня сеть поняла хорошо.

Второму... (коту?) животному я предлагал хлопнуть в ладоши, и почти получилось. Не совсем в ладоши, но какое-то энергичное движение он совершил, впрочем было много динамики и в исходной картинке. Третьего кота я пытался убедить встать, а головы других котов торчащие из воды должны были при этом утонуть. Ну, так... Головы утонули, кот не встал.

На старте дают кредит на 93 бесплатных секунды. Наигравшись с котами я решил нарисовать как Гоголь жжет вторую часть мертвых душ. Плохо. Ни горящих в огне бумаг, ни Гоголя кидающего в огонь рукописи мне получить так и не удалось. Пять секунд еще осталось, но... пусть будут. Мало ли. =)

Голос в этом ролике, кстати сгенерировал в lovo.ai - там три довольно приятных русских голоса и можно делать диалоги с их участием. Сохранять правда бесплатно ничего нельзя.

На этом пока всё

За бортом этого обзора осталось множество сервисов. Например есть такие, которые улучшают качество видео, вырезают паузы, повышают разрешение, создают автоматические субтитры. Есть множество видеоредакторов с интеллектуальными функциями, кстати, тот же Runway, (мне просто было лениво и проще собрать таймлайн в Вегасе).

В общем, я удовлетворил любопытство. Понятно, что еще через год-другой можно будет снять свое кино, исключительно при помощи буков. Есть время поработать над сценарием. )