Разработчики ChatGPT показали нейросеть, которая создает видео по описанию. Модель под названием Sora способна генерировать высококачественные ролики длительностью до минуты. Подобные сервисы уже появлялись, но ролики получались с сильными искажениями. Особенность новой разработки — именно в степени детализации. Нейросеть может создавать фотореалистичные видео и анимировать статичные изображения.

Разработчики заявляют, что модель понимает не просто запросы пользователя, но и то, как сгенерированные объекты существуют в реальном мире. О перспективах проекта рассуждает специалист в области искусственного интеллекта Игорь Щербаков: «Видится возможным ее использование в качестве дешевого генератора контента. В принципе, создание каких-то виртуальных амбассадоров брендов уже сейчас в тренде.

Теперь, когда появилась нейронка, которая генерирует пусть и короткие, но достаточно качественные, правдоподобные ролики, это может стать неким стартом гонки цифрового контента не только в виде фотографий и текста, но и в виде графического видео.

Сейчас модель есть в тестовом доступе. Но не видится каких-то больших препятствий в том, чтобы в будущем, причем достаточно близком, она начала генерировать и более длинные видео, и какой-то контент, в том числе в видеоиграх. Это будет шаг в сторону повышения качества и правдоподобности картинки в игровой индустрии.

Вместе с тем я думаю, что это инструмент станет помощником для тех, кто работает с изображениями. Ровно так же это было после появление больших языковых моделей: казалось, что сейчас многие начнут лишаться работы, потом появились инструменты на базе AI, которые хорошо работают с картинками, сейчас — с видео. По сути, это изменение инструментального набора специалистов в этой области.

То есть если раньше кто-то рисовал это руками, то теперь ему приходится правильно подбирать промпт, иметь опыт работы с нейронкой. Это техническая революция, которая не то чтобы лишит людей работы, она изменит ее формат и набор инструментов».

OpenAI признает, что Sora работает неидеально: модель может не справиться с созданием сложной сцены. Например, человек может откусить от печенья, но оно останется целым. Кроме того, нужно учитывать два серьезных риска, связанных с развитием таких моделей, отметил специалист МТС Red Александр Баулин: «К искусственному интеллекту уже есть как минимум две претензии. Первая связана с нарушением авторских прав. Системы обучаются на базах данных, и если в них попадает контент, защищенный авторским правом, есть вероятность его воспроизвести. То есть разработчики ИИ либо должны договориться на использование этих картинок, либо учесть, что ни в коем случае нельзя генерить что-то из обучающей базы.

И второе — это то, что если мы генерим картинки, которые похожи на реальные видео, то у нас возникает опасность использования дипфейков мошенниками.

В этом плане все инструменты могут служить во благо, а могут причинять вред. Например, молоток можно использовать, чтобы забить гвоздь, а можно — чтобы разбить окно с какой-то нехорошей целью.

В случае с нейросетью, работающей с видео, принципиальная разница в том, что обычно дипфейки плохо показывают лицо в разных ракурсах, то есть если персонаж головой туда-сюда крутит, то это уже не так удачно получается. И еще тут фон генерится, то есть это единая картинка. Если Sora будет так же доступна, как ChatGPT, в чем я не уверен, то это может быть более доступным инструментом».

Сейчас Sora проходит закрытое тестирование, эксперты ищут в ней потенциальные критические проблемы. Когда появится общедоступная версия, пока неизвестно.

С нами все ясно — Telegram-канал "Ъ FM".

Все материалы Коммерсантъ www.kommersant.ru