В прошлом году компания OpenAI задала очень высокую планку в области генеративного искусственного интеллекта, когда выпустила свои чат-боты, генерирующие текст и изображения. Теперь компания нацелилась на последнюю территорию человеческого творчества: видеоиндустрию. OpenAI анонсировала свою новейшую модель искусственного интеллекта под названием Sora. К сожалению обычные пользователи пока не смогут её протестировать, но OpenAI опубликовала большую подборку видео-примеров, и они по-настоящему впечатляют. Иногда даже невозможно догадаться, что их полностью создал искусственный интеллект.
Sora, как и некоторые популярные генераторы изображений, является диффузионной моделью. Она начинает свою работу с генерации видеоролика, состоящего из случайного шума, а затем многократно редактирует его для удаления шума и получения качественного результата. В конце этого процесса Sora выдает видеоролик на основе текстовой подсказки пользователя. Sora использует технологию "recaptioning" (повторного редактирования), которая сделала DALL-E 3 настолько эффективным. OpenAI последовательно генерирует описания для обучающих данных, что позволяет модели следовать подсказкам пользователя с гораздо большей точностью.
OpenAI опубликовала более трех десятков примеров видеороликов, большинство из которых почти неотличимы от реальных видеоматериалов или созданной человеком 3D-анимации. Модель понимает различные визуальные стили, поэтому вы можете указать ей создать рендер в стиле Pixar или кинематографический клип, который выглядит так, как будто он был снят на 35-миллиметровую пленку. Sora может создавать совершенно новые видеоролики с нуля или расширять существующий видеоклип так же, как DALL-E может использовать «перерисовку» для расширения статического изображения. Модель может даже создавать несколько видеороликов с одинаковыми настройками или сюжетами.
Большинство продемонстрированных видеопримеров показывают лучшую сторону Sora, но OpenAI также добавила несколько неудачных дублей, чтобы подчеркнуть раннюю версию модели. Компания заявила, что люди или животные могут «некорректно появляться» в сценах с большим количеством объектов. Модель также не всегда правильно понимает законы физики, изображая невозможные движения, которые выдают искусственное происхождение видео.
Тем не менее, большая часть того, что показала OpenAI, действительно впечатляет. Они настолько реалистичные, что вызывают обоснованные опасения по поводу возможного злоупотребления технологией. Компания заявила о планах внедрить защитные механизмы, чтобы блокировать изображения знаменитостей, сексуальный контент, материалы с ненавистью и т.д. Кроме того, будут созданы инструменты для облегчения идентификации видео, сгенерированных Sora. OpenAI планирует тестирование Sora с небольшой группой доверенных экспертов, чтобы убедиться в ее безопасности для широкого использования. О сроках открытия доступа пока не сообщается.
Генерация видеороликов с помощью искусственного интеллекта не является новинкой, но ни один из конкурентов и близко не сравнится с тем, что мы видели у Sora. Даже если компании удастся заблокировать некоторые возможности Sora для предотвращения мошенничества, некоторые программисты, вероятно, будут продолжать развивать эту технологию и создадут неограниченные версии. В конечном итоге ИИ-видеоролики станут настолько реалистичными, что пользователям будет трудно отличить их от настоящих.