4 подписчика

Видеогенераторы с искусственным интеллектом приближаются к решающему переломному моменту

15 апреля 202315 апр 2023

3 мин

В последнее время интернет переполнился впечатляющими видео-мемами, созданными с помощью искусственного интеллекта. Среди ярких примеров - "Гарри Поттер", переделанный под рекламу Balenciaga, и кошмарный клип Уилла Смита, поедающего спагетти, которые быстро стали вирусными. Хотя эти видео демонстрируют впечатляющие успехи, достигнутые ИИ в создании видео, они также подчеркивают некоторые проблематичные случаи использования этой технологии.

Это напоминает ситуацию, когда инструменты для создания изображений с помощью ИИ стали широко доступны в прошлом году. Такие программы, как Craiyon (ранее известная как DALL-E Mini), позволяли любому желающему создавать узнаваемые, хотя и грубые и сюрреалистические изображения, такие как кадры наблюдения за младенцами, грабящими заправку, наброски Дарта Вейдера в зале суда и Элона Маска, поедающего мелки. Craiyon был подделкой с открытым исходным кодом генератора изображений DALL-E 2 от OpenAI, компании, создавшей ChatGPT. Этот инструмент продемонстрировал способность ИИ воспринимать текстовую подсказку и превращать ее в кажущиеся подлинными фотографии и нарисованные человеком иллюстрации. С тех пор DALL-E стал доступен для всех, а другие программы, такие как Midjourney и Dream Studio, разработали аналогичные инструменты, позволяющие относительно легко создавать сложные и реалистичные изображения с помощью всего нескольких нажатий клавиш.

По мере того как инженеры оттачивали алгоритмические ручки и рычаги, стоящие за этими генераторами изображений, добавляли больше обучающих данных и инвестировали в большее количество чипов GPU, эти инструменты создания изображений стали невероятно искусными в подделке реальности. Например, на сайте subreddit, посвященном странным изображениям ИИ, есть фотографии Алекса Джонса на гей-параде и Ковчега Завета на дворовой распродаже.

Однако, несмотря на впечатляющую способность ИИ создавать убедительные изображения, создание видеоконтента остается сложной задачей для алгоритмов. Создание множества отдельных кадров требует больших вычислительных затрат, и, как показывают сегодняшние дрожащие и рассыпающиеся видео, алгоритмам трудно поддерживать достаточную согласованность между ними, чтобы создать видео, имеющее смысл. Тем не менее, инструменты ИИ становятся все более искусными в редактировании видео. Мем Balenciaga, а также версии, ссылающиеся на "Друзей" и "Во все тяжкие", были созданы путем комбинирования нескольких инструментов ИИ для создания неподвижных изображений и добавления простых анимационных эффектов. На этой неделе компания Runway ML, разрабатывающая инструменты ИИ для профессионального создания и редактирования изображений и видео, запустила новую, более эффективную технику внесения стилистических изменений в видео.

Различные методы машинного обучения открывают новые возможности. Например, Luma AI использует технику, называемую нейронными полями сияния, для превращения 2D-фотографий в детальные 3D-сцены. Если отправить несколько снимков в приложение компании, то получится полностью интерактивная 3D-сцена, с которой можно поиграть.

Хотя создание видео с помощью ИИ все еще находится в зачаточном состоянии, эти ролики позволяют предположить, что мы находимся в точке перегиба для этой технологии. Как и в случае с созданием изображений с помощью ИИ, за ростом числа мемов может последовать значительное улучшение качества и управляемости видеороликов с помощью ИИ, что приведет к их включению во всевозможные средства массовой информации. Некоторые авторы могут даже рассматривать ИИ как музу для своего искусства.

Однако стремительное развитие генеративного ИИ может быть и опасным в то время, когда социальные сети стали оружием, а фальшивки используются в качестве пропагандистских инструментов. Важно рассмотреть, как генеративный ИИ может повторно использовать уродливые стереотипы. Хотя инстинкт доверия к видеоклипам все еще в основном надежен, может пройти немного времени, прежде чем кадры, которые мы видим, станут менее надежными и правдивыми, чем были раньше.