15 февраля американская компания Open AI представила новую нейросеть Sora, которая может генерировать видео по текстовому запросу. Ее отличает то, что она создает видео длиной до минуты в высоком качестве, а также точно следует запросам пользователей, опережая все существующие аналоги. Подробности о том, какие возможности есть у новой нейросети Sora и какие опасности может таить в себе невероятный реализм ее контента, читайте в материале РИАМО.
Что такое нейросеть Sora
Sora — это нейросеть, способная преобразовывать текстовые описания в реалистичные видео (text-to-video). Она позволяет создавать детализированные визуализации сложных сценариев без значительных временных затрат. Как говорит в беседе с РИАМО директор по маркетингу российской студии локализации аудиовизуального контента «Кириллица» Надежда Равина, на данный момент компания OpenAI – разработчик Sora – ограничивает доступ к нейросети, внедряя ее в специализированные проекты и платформы.
«Есть предположение о связи Sora с движком Unreal Engine, что подчеркивает ее потенциал для создания еще более реалистичных и погружающих виртуальных миров. Это может радикально изменить индустрию видеоигр и кино», – говорит эксперт.
Впрочем, на данный момент официального подтверждения этой связи от OpenAI или Epic Games (разработчика Unreal Engine) пока нет. В то же время подобные технологические партнерства или интеграции могут быть частью стратегии развития OpenAI, отмечает Надежда Равина. Между тем добиться невероятного качества контента, создаваемого Sora, разработчики из OpenAI сумели благодаря постоянным тренировкам нейросети.
Обучение любого искусственного интеллекта (ИИ), в том числе Sora, проводится на базе обширных данных, причем чем больше данных, тем лучше нейронная сеть выполняет поставленные перед ней задачи. Такой подход аналогичен обучению человека.
Какие возможности есть у нейросети Sora
По мнению экспертов, нейросеть Sora открывает новые возможности для творческих индустрий, позволяя создавать сложные визуальные нарративы и анимацию с невиданным ранее уровнем детализации и реализма. Это может радикально изменить такие индустрии, как реклама, образование и видеоигры, поскольку они получат инструменты для быстрого и экономичного производства контента.
Как объясняет Надежда Равина, в киноиндустрии и анимации Sora может снизить затраты и время на производство, а также позволит создавать более сложные визуальные эффекты, расширяя границы творчества и повествования. Создатели контента смогут экспериментировать с новыми сюжетами и визуальными стилями, которые ранее были недостижимы из-за ограничений бюджета или технологий.
«Например, в киноиндустрии режиссеры смогут воплотить в жизнь сложные фантастические миры без необходимости создавать дорогостоящие декорации или спецэффекты вручную», — говорит собеседница РИАМО.
В то же время в анимации применение Sora может породить новые арт-стили и техники, одновременно упрощая процесс создания контента и давая аниматорам больше времени на разработку персонажей и сюжетов вместо трудоемкой технологической рутины. Нейросеть открывает очень широкие перспективы для творчества, поскольку она способна генерировать сложные сцены с несколькими персонажами, разными типами движения, а также точной детализацией фона.
Sora не только понимает, что именно пользователь написал в текстовом запросе, но и то, как эти вещи существуют в реальном мире. При этом нейросеть генерирует очень реалистично, что выгодно отличает ее от аналогов. Сегодня большая проблема нейросетей, создающих видео в том, что они не могут с нуля создавать реалистичных людей, животных или какие-либо объекты. Однако у Sora реалистичные картинки получаются куда лучше, чем у конкурентов, а некоторые кадры порой в принципе невозможно отличить от реальных съемок.
Какие видео может создавать нейросеть Sora и как ею пользоваться
Нейросеть Sora – это так называемая диффузионная модель, которую специалисты OpenAI обучали на самых разных реальных видео. При генерации контента она берет за основу случайный ролик, а затем постепенно превращает его в четкое видео, которое полностью соответствует запросу пользователя. При этом Sora может создавать контент как по текстовому запросу, так и по видео или по картинке.
Нейросеть способна не только создавать видеоряд с нуля, но также расширять существующие ролики или же анимировать готовые картинки. Однако пока компания OpenAI представила лишь итоги генерации по текстовым промптам (описаниям). К слову, любопытно, что для составления этих промптов не нужно никаких специальных знаний: их может писать любой человек, причем так, как если бы он описывал что-то своему другу. Вот примеры некоторых промптов для нейросети Sora:
Запрос №1. На данной фотографии изображен крупный план венценосного голубя с ярким голубым оперением и красной грудью. Его хохолок состоит из мягких кружевных перьев, а глаза имеют поразительный красный цвет. Голова птицы наклонена в сторону, что придает ей царственный вид. Фон размыт, что подчеркивает красоту и величие этой птицы.
Запрос №2. Вид с дрона на волнующиеся волны, разбивающиеся о скалы на пляже Гарай-Пойнт в Биг-Суре. Синяя вода формирует белоснежные волны, а закатное солнце освещает скользкий песчаный берег. На заднем плане можно увидеть небольшой остров с маяком, а края скалы усыпаны зелеными кустами. Крутой спуск с дороги к пляжу представляет собой захватывающее зрелище: скалы выступают над морем. Этот вид передает красоту прибрежных ландшафтов и дикий характер шоссе Пасифик-Кост.
Запрос №3. Отличительной чертой анимационной сцены является изображение маленького милого монстра, стоящего на коленях рядом с горящей красной свечой. Графический стиль выполнен в 3D формате, с пристальным вниманием к деталям освещения и текстуры. На лице существа отражены удивление и любопытство, оно широко открывает глаза и рот, будто впервые знакомится с миром вокруг. Его поза и выражение лица передают чувство игривости и невинности. Теплые цвета и световые эффекты добавляют уютности и умиротворенности образу.
Какие риски несет в себе нейросеть Sora
Несмотря на то, что нейросеть Sora открывает удивительные возможности для генерации контента, у нее есть и обратная сторона – угроза создания невероятно реалистичных дипфейков и манипулирования видео-контентом, которая становится все более актуальной. Любопытно, что проблемы с дипфейками для человечества в 2024 году предсказал датский Saxo Bank.
Согласно прогнозу финансовой организации, генеративный ИИ станет угрозой национальной безопасности, поскольку велика возможность применения дипфейков против чиновников разных стран. В результате властям придется принять регулирующие нормы, что может привести к оттоку венчурных инвесторов из этой индустрии.
Как бы то ни было, сегодня вопрос маркировки контента, сгенерированного Sora и другими нейросетями, стоит очень остро, отмечает Надежда Равина. Один из вариантов проверки подлинности и происхождения цифрового контента (ID Content) лежит через блокчейн. Однако, насколько эффективными и доступными окажутся эти технологии для обычных пользователей и создателей контента, пока не ясно.
Кроме того, консорциум по проверке достоверности контента (C2PA) занимается разработкой открытых стандартов для метаданных, которые помогут в защите авторских прав и аутентификации контента.
«Эти стандарты могут включать информацию о происхождении, истории изменений и авторстве контента, тем самым предоставляя инструменты для борьбы с дезинформацией и подделками», – заключает собеседница РИАМО.