34,2 тыс подписчиков

Проблемы ИИ-видео: почему виртуальные гимнасты превращаются в кошмар

18 декабря 202418 дек 2024

315

4 мин

Развитие генеративного ИИ делает шаги в сторону создания реалистичных видео, однако текущие модели всё ещё сталкиваются с ограничениями. Один из недавних примеров — видео, сгенерированное Sora, инструментом OpenAI. В нём гимнаст выполняет неестественные движения, внезапно теряет голову и обзаводится лишними конечностями. Такие сбои, получившие название «jabberwocky», демонстрируют, насколько далеко генеративные алгоритмы ещё находятся от истинной реалистичности. Генеративные модели, такие как Sora, создают видео на основе статистических закономерностей, выявленных из обучающих данных. Процесс включает несколько этапов: Что идёт не так: В результате получаются кадры, где конечности растут из неожиданных мест, а голова «теряется» и снова появляется, словно в фильме ужасов. Пользователь Sora сгенерировал видео, используя детализированный текстовый запрос с описанием гимнастической программы. Несмотря на точность запроса, результат оказался пугающим: Почему это происходит: Термин «jabber

Оглавление

Почему происходят сбои в ИИ-видео
Пример сбоя и что он говорит о технологиях
Проблема «jabberwocky» и её корни

Почему происходят сбои в ИИ-видео

Генеративные модели, такие как Sora, создают видео на основе статистических закономерностей, выявленных из обучающих данных. Процесс включает несколько этапов:

Обучение модели
В сеть загружаются огромные наборы видеоданных, сопровождаемых текстовыми описаниями. Модель учится сопоставлять последовательности кадров с текстовыми командами.
Генерация видео
Когда пользователь вводит текстовый запрос, модель начинает создавать кадры, предсказывая следующий кадр на основе предыдущего.

Что идёт не так:

Модель не понимает физику движений и анатомию человека. Она лишь статистически сопоставляет пиксели из видеоданных.
Сложные движения, такие как гимнастические элементы, слишком динамичны, чтобы модель могла их предсказать с точностью.
Нехватка точных обучающих данных с детализированными описаниями движений делает результат абсурдным.

В результате получаются кадры, где конечности растут из неожиданных мест, а голова «теряется» и снова появляется, словно в фильме ужасов.

Пример сбоя и что он говорит о технологиях

Пользователь Sora сгенерировал видео, используя детализированный текстовый запрос с описанием гимнастической программы. Несмотря на точность запроса, результат оказался пугающим:

Гимнаст морфировал в процессе прыжков, появлялись лишние руки и ноги.
Модель не смогла правильно собрать последовательность движений, потому что данные были фрагментированы.

Почему это происходит:

Отсутствие физического понимания
Модель не знает, что тело человека должно двигаться по законам физики. Она просто воспроизводит набор пикселей на основе данных.
Обучение на неполных данных
Видео с гимнастами в обучающих наборах, вероятно, были недостаточно детализированы и не содержали метаданных о сложных движениях тела.
Ошибочные предсказания
Каждый новый кадр основывается на предыдущем, но если модель сделала ошибку, она начинает «галлюцинировать», создавая цепь бессмысленных и нелепых кадров.

Проблема «jabberwocky» и её корни

Термин «jabberwocky» происходит из поэмы Льюиса Кэрролла и описывает бессмысленные и абсурдные комбинации слов. В контексте ИИ это означает, что модель создаёт выходной результат, который выглядит как «псевдореальность».

Примеры «jabberwocky» в видео:

Гимнаст, который теряет голову и обретает лишние руки.
ИИ-реклама пива, где люди ведут себя как монстры.
Сцены, где персонажи бесконечно морфируют и теряют целостность.

Причина: генеративные модели не создают новых реальностей — они имитируют на основе данных, которые уже видели. Если текстовый запрос выходит за пределы их опыта, модель делает «лучший догадочный» результат, который зачастую оказывается абсурдным.

Как улучшить ИИ-видео

Реалистичность ИИ-видео зависит от нескольких факторов:

Больше данных
Необходимо больше обучающих видео с качественными метаданными, описывающими сложные движения и физику тела.
Физические ограничения
Введение законов физики в обучающие модели позволит им понимать, как должны двигаться объекты в реальном мире.
Повышение вычислительной мощности
Сложные генерации требуют колоссальных ресурсов для точных предсказаний последовательности кадров.
Улучшение архитектуры моделей
Модели должны не просто предсказывать кадры, но и учитывать целостность объектов на протяжении всего видео.

Будущее генеративного видео

ИИ, подобные Sora, являются важным шагом к созданию мировых симуляторов, способных воспроизводить реалистичные события и сцены. Пока что модели показывают «иллюзию понимания», когда результаты выглядят правдоподобно лишь на ограниченном наборе запросов.

Тем не менее, эксперты считают, что прогресс в ИИ-видео пойдёт по той же траектории, что и генерация изображений:

Если ранние модели создавали примитивные искажения, то современные инструменты вроде MidJourney уже производят почти фотореалистичные изображения.
Аналогично, с ростом данных и улучшением алгоритмов ИИ-видео станет более последовательным и правдоподобным.

Заключение

Проблема «jabberwocky» в видео наглядно демонстрирует ограничения современных ИИ-моделей. Они пока не понимают физики и анатомии, а лишь имитируют на основе статистических закономерностей. Однако прогресс неизбежен: увеличение данных, внедрение физики и улучшение алгоритмов позволит ИИ-видео эволюционировать до уровня, где такие сбои останутся лишь напоминанием о ранних днях технологий. До тех пор пользователям остаётся наслаждаться абсурдным и пугающим искусством, созданным несовершенным ИИ.