Преобразование текста в видео – это следующий важный этап в области искусственного интеллекта. Пару недель назад можно было видеть, насколько потрясающей (и немного жутковатой) была реклама Pepperoni Hugspot, созданная искусственным интеллектом. Человек, который разработал это видео, рассказал, что его команда использовала инструмент под названием Runway Gen-2 для создания движущихся изображений в этом проекте. Механизму преобразования текста в видео они давали простые подсказки, такие как «счастливый мужчина / женщина / семья, едящие кусок пиццы в ресторане, телевизионная реклама», и получали фотореалистичный контент.
Аврам Пилтч получил доступ к публичной бета-версии Runway Gen-2, и он сообщил, что действительно впечатлен реалистичностью ее результатов. Несмотря на то, что видеоролики короткие, всего по четыре секунды каждое, качество изображений впечатляет, и все это работает путем отправки коротких запросов боту на сервере Discord от Runway ML.
Отправив несколько слов текста боту @Gen-2, он смог получить короткие, фотореалистичные (или в мультяшном стиле) видеоролики обо всем: от семьи, наслаждающейся ужином с суши, до робота с серьезной проблемой употребления алкоголя. Результат часто был не совсем таким, как он просил, но он всегда был интересным и превосходил приложение NeuralInternet для преобразования текста в видео.
Хотя присоединиться к серверу может любой желающий, список чатов Gen-2 вы увидите только после того, как получите доступ к бета-версии программы (многие из которых находятся в списке ожидания). Есть несколько комнат, где вы можете общаться в чате и делиться проектами с другими пользователями, а также есть три комнаты с названиями Generate One, Generate Two и Generate Three, куда вы можете перейти, чтобы отправлять приглашения непосредственно боту @Gen-2. Модераторы рекомендуют вам продолжать отправлять приглашения в одну и ту же тему, чтобы не создавать беспорядок в каждой комнате чата.
Запрос Runway Gen-2
Текстовый запрос Runway Gen-2 может выглядеть примерно так: «@Gen-2 Пьяный робот-гуманоид, который смотрит в камеру и тошнит маленькими болтами». Бот немедленно ответит. Затем, через пару минут, вы получите 4-секундное видео на основе вашей подсказки.
Вот как выглядел пьяный робот. Все видео можно воспроизводить в Discord, и вы можете скачать их в виде файлов MP4.
Можно заметить, что приведенный выше клип был не совсем тем, что было запрошено. Робот не тошнит болтами. Вместо этого он просто угрожающе смотрит на кружку. Другие попытки выполнить эту подсказку тоже были не совсем тем, чего от него хотели. Если убрать слово «пьяный», то получится робот, открывающий рот, но ничего не выплевывающий.
Использование изображений с подсказками Runway Gen-2
Вы также можете передать изображения боту, либо скопировав и вставив их в Discord вместе с текстовым запросом, либо указав URL-адрес изображения. Однако Runway Gen-2 фактически не будет использовать загруженное вами изображение. Он будет черпать вдохновение только из изображения при создании собственного видео. Ему много раз загружали фото человека. Бот выдал видео людей, которые несколько похожи, но определенно не человеком с фото.
Например, когда Аврам Пилтч загрузил свою фотографию и не дал никакой дополнительной информации, на ней был изображен лысеющий мужчина средних лет в темных очках, который не был им, стоящий рядом с рекой и какими-то зданиями. Его рот шевелился, а вода двигалась.
Бот Runway Gen-2 лучше копирует эмоцию или тему изображения, которое вы предоставляете. Он прислал ему свое изображение с выражением отвращения на лице и попросил «этого парня, который смотрит в камеру и бормочет «о боже».
Многие пользователи сервера Discord говорят, что они добились отличных результатов, сгенерировав неподвижное изображение с помощью другого инструмента искусственного интеллекта, такого как Midjourney или Stable Diffusion, а затем передав это изображение в CLIP Interrogator 2.1 на Hugging Face, инструмент, который просматривает изображение, а затем дает вам подсказки, что, по его мнению, относится к этому изображению.
Аврам Пилтч попробовал этот процесс, попросив Stable Diffusion сделать изображение мальчика на тротуаре, играющего с игрушечными роботами в 1980-х. Затем он загрузил изображение в CLIP Interrogator и получил несколько примеров подсказок, которые были довольно очевидными, например, «мальчик стоит рядом с роботом». Тем не менее подача того же изображения в подсказку дала не совсем то, что требовалось. Получился мальчик с двумя роботами, стоящими перед улицей, но это была не та же самая улица или тот же мальчик.
Генерация движения
Само ограничение по времени обычно означает, что в каждом клипе не так много времени для движения. Но вдобавок ко всему, обнаружилось, что во многих клипах очень мало движения. Часто это было просто качание чьей-то головы, или вытекание какой-то жидкости, или дым, поднимающийся от огня.
Хороший способ получить больше движения — поставить подсказку, в которой запрашивается замедленная съемка или какое-либо панорамирование. Когда бот попросили замедленную съемку исландского вулкана или панорамный снимок нью-йоркского метро, то получились довольно хорошие результаты. Когда его попросили сгенерировать панорамный вид на горизонт Тайбэя, получилось движение облаков, но не панорама, и город определенно был не Тайбэем.
Просьба о беге, погоне или верховой езде может привести к выполнению задания, а может и не привести. Когда боту предложили сгенерировать «черепаха на скейтборде», то получилось какое-то странное, похожее на черепаху животное, катящееся по улице с большой скоростью. Но когда его попросили сгенерировать, как боксеры Intel и AMD сражаются друг с другом, то получилось изображение двух боксеров, которые вообще не двигались (и ни на одном из них не было логотипов Intel или AMD).
В чем хорош и плох Runway Gen-2
Как и другие генераторы изображений с искусственным интеллектом, Runway Gen-2 не очень хорошо справляется с воспроизведением очень специфических фирменных персонажей, продуктов или мест. Когда его попросили сгенерировать боксеров Марио и Луиджи, то получились два персонажа, которые выглядят как подделки персонажей Nintendo. Его много раз просили сделать видео с Годзиллой, но получались лишь непохожие гигантские ящерицы.
С отсылками к Minecraft было немного лучше. Когда его попросили сгенерировать крипера и эндермена, которые едят пиццу, а также крипера, который ест в Макдональдсе, то получились прилично выглядящие криперы, но вот эндермен получился не очень. Когда его попросили сгенерировать семейство криперов, поедающих пиццу, то получилось семейство гуманоидов, которые выглядят так, будто пришли из Майнкрафта. Любой, кто играл в Майнкрафт, знает, что криперы — это зеленые монстры с черными пятнами.
Инструмент ужасно плохо работает с логотипами. Ему дали логотип Tom's Hardware и попросили использовать его в рекламе. В ответ он прислал это:
Когда ему задали «горящий процессоре AMD Ryzen», то получилось что-то, что смутно напоминало CPU с логотипом:
Итог
Что Runway Gen-2 делает действительно хорошо, так это дает вам общие изображения людей с едой. Вы можете «заставить» их есть именно то, что вы хотите. Семья, поедающая суши в пиццерии 1970-х годов, выглядела особенно реалистично.
Пока Runway Gen-2 находится в закрытой бета-версии, но компания заявила, что намерена вскоре сделать ее доступной для всех, как она уже сделала с версией Gen-1. Как демонстрация технологии, это действительно впечатляет.
Даже если бы время было увеличено до 60 секунд, кажется маловероятным, что этот инструмент сможет заменить профессионально (или даже любительски) снятое видео в ближайшее время. Его неспособность точно воспроизводить очень специфические места и людей является огромным недостатком. Однако пока это проблема всех ИИ, генерирующих изображения. Тем не менее технология уже здесь, и по мере увеличения обучающих данных она вполне сможет достигнуть впечатляющих результатов.