Найти тему

OpenAI представляет новый инструмент для создания видео из текста

Инструмент способен генерировать целые видеоролики за один раз или расширять созданные видеоролики, делая их более длинными, сообщает компания.

Компания OpenAI, создавшая ChatGPT, выпустила новое приложение, использующее генеративный искусственный интеллект для создания фильмов из текста.

По словам OpenAI,
Sora создает фильм, начиная с того, что кажется статичным шумом, и постепенно трансформируя его, уменьшая шум в несколько этапов.

По словам представителей компании, программа может создавать полные фильмы сразу или расширять ранее созданные видео, делая их длиннее. Она утверждает, что решила проблему обеспечения постоянства темы, даже когда она ненадолго пропадает из виду, предоставив модели возможность предвидеть сразу много кадров.

Пока Sora доступна только избранным академикам и видеохудожникам, но компания уже продемонстрировала свои возможности на X, ранее известном как Twitter.

Представляем Sora, нашу модель превращения текста в видео.
Sora может создавать фильмы продолжительностью до 60 секунд с чрезвычайно реалистичной обстановкой, сложным движением камеры и несколькими актерами с яркими эмоциями.


- Open Ai (@OpenAI), 15 февраля 2024 г.

Как сообщается в блоге компании, Sora вдохновлена огромными языковыми моделями, которые приобретают универсальные навыки путем обучения на данных интернет-масштаба.

Согласно сообщению, использование лексем, объединяющих разрозненные модальности текста - код, арифметику и многочисленные естественные языки, - способствует успеху парадигмы LLM.

Согласно OpenAI, Sora использует визуальные патчи, а не текстовые лексемы. "Мы обнаружили, что патчи являются высокомасштабируемым и эффективным представлением для обучения генеративных моделей на различных типах видео и изображений", - говорится в статье.

-2

Метод преобразует фильмы в патчи, сжимая их в низкоразмерное латентное пространство и затем разлагая это представление на пространственно-временные патчи, говорится в статье.

OpenAI "
обучила" сеть минимизировать размеры визуального ввода. Она принимает на вход необработанное видео и создает "латентное представление, сжатое как во временном, так и в пространственном отношении".

Sora обучается и затем создает видео из этого сжатого латентного пространства.