Open AI разработала новую нейросеть, которая умеет генерировать невероятно реалистичные видеоролики, пишет NYT. Она так хороша, что может заменить специалистов по цифровой графике. Между тем эксперты опасаются, что подобный ИИ может быть недобросовестно использован в политических целях.
В апреле нью-йоркский стартап Runway AI представил технологию, которая позволяет людям создавать видеоролики по запросу — например, о корове на празднике или собаке со смартфоном. Несмотря на размытость, прерывистость и помехи, четырехсекундные видео свидетельствуют о том, что в ближайшие месяцы и годы технологии искусственного интеллекта будут развиваться в этом направлении.
Читайте ИноСМИ в нашем канале в Telegram
И вот, спустя всего 10 месяцев стартап OpenAI из Сан-Франциско представил аналогичную систему создания видеороликов, которые выглядят так, будто они взяты из голливудского фильма. На презентации показали созданные в считанные минуты короткие видео о шерстистых мамонтах, бегущих рысью по заснеженному лугу; пушистом монстрике, пристально смотрящем на тающую свечу; и с пролетом камеры над улицами Токио.
Компания OpenAI, создавшая чат-бот ChatGPT и генератор неподвижных изображений DALL-E, стремится улучшить этот вид генерации мгновенных видео наряду со стартапами и IT- гигантами, в том числе Google и Meta*. Технология может ускорить работу опытных кинематографистов, полностью заменив непрофессиональных специалистов по компьютерной графике. Также она может стать быстрым и недорогим способом генерирования онлайн-дезинформации, что еще больше затруднит понимание разницы между реальным и нереальным на просторах сети.
"Я в абсолютном ужасе от осознания того, какую роль подобные вещи будут играть на выборах с острой конкуренцией", — говорит профессор Вашингтонского университета Орен Эциони (Oren Etzioni), основатель некоммерческой организации True Media, в чьи функции входит выявление дезинформации в ходе политических кампаний.
OpenAI называет новую систему Sora, что в переводе с японского означает "небо". Ее создатели, в число которых входят исследователи Тим Брукс (Tim Brooks) и Билл Пиблз (Bill Peebles), выбрала это название как символ "безграничного творческого потенциала". В одном из интервью они отметили, что для широкой публики Sora пока не доступна ввиду продолжающегося тестирования на предмет опасностей системы. Компания делится технологией пока лишь с небольшой группой ученых и независимых исследователей, которые будут "тестировать ее на предмет угроз извне". "Цель здесь состоит в том, чтобы дать предварительный обзор на события ближайшего будущего, чтобы люди могли увидеть возможности этой технологии, а мы — получить обратную связь", — сказал доктор Брукс.
OpenAI маркирует созданные системой видео водяными знаками, идентифицирующими их как сгенерированные ИИ. Вместе с тем в компании признают, что их можно удалить или сделать максимально незаметными. Данная система является примером генеративного ИИ, способного мгновенно создавать тексты, изображения и звуки. Подобно другим аналогичным технологиям система OpenAI учится посредством анализа цифровых данных — в данном случае видео и титрах к ним.
OpenAI отказалась вдаваться в подробности о количестве и источнике роликов, на которых училась система, отметив лишь, что в подборке были как общедоступные, так и лицензированные правообладателями видео. Компания не особо распространяется о данных, используемых для обучения ее технологиям, ввиду желания сохранить преимущество перед конкурентами — и на нее неоднократно подавали в суд за использование материалов, защищенных авторским правом.
Так, в декабре газета New York Times подала в суд на OpenAI и ее партнера Microsoft, заявив о нарушении авторских прав на новостной контент, связанный с ИИ-системами.
Sora создает видеоролики по запросу с коротким описанием, к примеру "искусно смоделированный из бумаги коралловый риф с изобилием разноцветных рыбок и прочих морских обитателей". Видеоролики хоть и впечатляют, но не всегда идеально выполнены или содержат странные / нелогичные изображения. Недавно, например, система сгенерировала видео, на котором кто-то ест печенье, которое при этом не становится меньше.
DALLE, Midjourney и другие генераторы неподвижных изображений настолько быстро совершенствуются, что за несколько лет научились создавать изображения, практически не отличимые от фотографий. Это усложнило выявление дезинформации в Интернете, а многие специалисты по компьютерной графике жалуются на трудности с поиском работы.
"В 2022 году мы все смеялись над новоявленным Midjourney и рассуждали о том, как это мило, — говорит кинохудожник из Мичигана Рид Саутен (Reid Southen). — А сейчас народ теряет из-за него работу".
Автор: Кейд Мец (CadeMetz).
*признана в РФ экстремистской организацией