28 подписчиков

Новейшая модель Sora от OpenAI может генерировать видео — и они выглядят прилично

16 февраля 202416 фев 2024

3 мин

OpenAI, следуя по стопам таких стартапов, как Runway , и технологических гигантов, таких как Google и Meta , занимается созданием видео.

OpenAI сегодня представила Sora , генеративную модель искусственного интеллекта, которая создает видео из текста. По утверждению OpenAI, при наличии краткого или подробного описания или неподвижного изображения Сора может создавать сцены, похожие на кинофильмы, с разрешением 1080p, с несколькими персонажами, различными типами движения и деталями фона.

Sora также может «расширять» существующие видеоклипы, стараясь заполнить недостающие детали.

«Sora обладает глубоким пониманием языка, что позволяет ему точно интерпретировать подсказки и создавать убедительные символы, выражающие яркие эмоции», — пишет OpenAI в своем блоге. « Модель понимает не только то, что пользователь запросил в командной строке, но и то, как эти вещи существуют в физическом мире».

На демо-странице OpenAI для Sora много напыщенности — приведенное выше заявление является примером. Но выбранные образцы модели выглядят довольно впечатляюще, по крайней мере, по сравнению с другими технологиями преобразования текста в видео, которые мы видели.

Во-первых, Sora может создавать видеоролики в различных стилях (например, фотореалистичные, анимированные, черно-белые) продолжительностью до минуты — гораздо дольше, чем большинство моделей преобразования текста в видео. И эти видео сохраняют разумную последовательность в том смысле, что они не всегда поддаются тому, что я называю «странностями ИИ», например, объектам, движущимся в физически невозможных направлениях.

Посмотрите этот тур по художественной галерее, созданный Sora (не обращайте внимания на зернистость — сжатие с помощью моего инструмента конвертации видео в GIF):

Или вот эта анимация цветущего цветка:

Я скажу, что некоторые из видеороликов Sora с гуманоидным объектом — например, роботом, стоящим на фоне городского пейзажа, или человеком, идущим по заснеженной тропе — имеют качество видеоигры, возможно, потому, что там не так уж много происходит, на заднем фоне. Кроме того, странности ИИ умудряются проникать во многие клипы, например, автомобили, движущиеся в одном направлении, а затем внезапно поворачивающие задним ходом или руки, тающие в пододеяльнике.

OpenAI, несмотря на все свои превосходные степени, признает, что модель не идеальна. Он пишет:

«[Sora] может испытывать трудности с точным моделированием физики сложной сцены и может не понимать конкретные случаи причины и следствия. Например, человек может откусить кусочек печенья, но после этого на печенье может не остаться следа от укуса. Модель также может путать пространственные детали подсказки, например, путать лево и право, и может не давать точного описания событий, которые происходят во времени, например, следуя определенной траектории камеры».

OpenAI позиционирует Sora как предварительный вариант исследования, мало раскрывая, какие данные использовались для обучения модели (если не считать примерно 10 000 часов «высококачественного» видео) и воздерживается от общего доступа к Sora. Его обоснование заключается в возможности злоупотреблений; OpenAI правильно отмечает, что злоумышленники могут злоупотреблять такой моделью, как Сора, множеством способов.

OpenAI заявляет, что работает с экспертами над проверкой модели на наличие эксплойтов и созданием инструментов для определения того, было ли видео создано Sora. Компания также заявляет, что, если она решит встроить модель в общедоступный продукт, она обеспечит включение метаданных о происхождении в генерируемые выходные данные.

«Мы будем привлекать политиков, преподавателей и художников по всему миру, чтобы понять их проблемы и определить положительные варианты использования этой новой технологии», — пишет OpenAI. «Несмотря на обширные исследования и испытания, мы не можем предсказать все полезные способы, которыми люди будут использовать нашу технологию, а также все способы, которыми люди будут ею злоупотреблять. Вот почему мы считаем, что обучение на примере реального использования является важнейшим компонентом создания и выпуска все более безопасных систем искусственного интеллекта с течением времени».