185 подписчиков

Эпоха генеративного видео?Прощай актеры.

27 марта 202427 мар 2024

3 мин

OpenAI – создатель ChatGPT, чат-бота, положившего начало нынешнему увлечению генеративным искусственным интеллектом – только что анонсировал свою собственную модель преобразования текста в видео – Sora.

Так что же такое Сора? По сути, Sora предназначена для видеозаписи того же, что ChatGPT для записи, а Dall-E 3 — для генерации изображений. Вы вводите то, что хотите видеть, и оно появляется в полном движении перед вашими глазами. Сказать, что результаты ошеломили сообщество ИИ, значит не сказать ничего. Хотя мы пока не можем использовать его для себя, видеоролики демонстрируют близкую к фотореалистичной последовательность женщин, идущих по городу и американскому городу эпохи золотой лихорадки, созданную с помощью простых текстовых подсказок. По словам людей, с которыми я разговаривал, это на два-три года опережает

их предполагаемое положение, когда дело доходит до генеративного видео.

Это всего лишь еще один признак того, что революция ИИ будет происходить гораздо более быстрыми тем

их предполагаемое положение, когда дело доходит до генеративного видео.

Это всего лишь еще один признак того, что революция ИИ будет происходить гораздо более быстрыми тем

Оглавление

Как это работает?
Готов ли мир к генеративному видео по запросу?

По сути, Sora предназначена для видеозаписи того же, что ChatGPT для записи, а Dall-E 3 — для генерации изображений. Вы вводите то, что хотите видеть, и оно появляется в полном движении перед вашими глазами.

Сказать, что результаты ошеломили сообщество ИИ, значит не сказать ничего. Хотя мы пока не можем использовать его для себя, видеоролики демонстрируют близкую к фотореалистичной последовательность женщин, идущих по городу и американскому городу эпохи золотой лихорадки, созданную с помощью простых текстовых подсказок.

По словам людей, с которыми я разговаривал, это на два-три года опережает
их предполагаемое положение, когда дело доходит до генеративного видео.
Это всего лишь еще один признак того, что революция ИИ будет происходить гораздо более быстрыми темпами, чем многие ожидают.

Но генеративное видео, несомненно, технически великолепное, создает этические и социальные проблемы, выходящие за рамки тех, которые возникают при автоматизированном создании текста, изображений и звуков.

Итак, давайте посмотрим, что это такое, что оно делает и, возможно, самое главное, что оно означает для мира, в котором неизбежно становится все труднее отличить реальное от цифрового.

Как это работает?

Подобно Dall-E и другим генераторам изображений, Sora, по сути, представляет собой диффузионную модель, то есть она создает изображения из случайного «шума» и постепенно дерандомизирует их, преобразуя в изображение, соответствующее заданному запросу.

За тысячи или десятки тысяч шагов изображения, составляющие видео, становятся более четкими.

Что действительно делает его особенным, так это способность понимать,
как объекты – люди или что-то еще – в обстановке будут реалистично взаимодействовать со всем остальным. Это может означать, что вода намокает предметы, когда они проходят через нее, или мяч падает и реалистично перемещается по полу при падении.

Точно так же, как ChatGPT понимает слова из их контекста, изучая,
как они сочетаются с другими словами для передачи значения, Сора понимает, как вещи действуют и ведут себя в реальных условиях. OpenAI не предоставил подробностей о том, на каких данных он обучается, но, скорее всего, это будут много-много часов реальных видеозаписей, из которых он сможет узнать,
как предметы, люди, животные и пейзажи движутся и взаимодействуют.

Помимо создания совершенно новых кадров, он может продолжить существующее видео и воссоздать существующие кадры с новых ракурсов.

Готов ли мир к генеративному видео по запросу?

Сора предлагает удивительные возможности. Но предоставление кому-либо возможности создавать реалистичные видеоролики обо всем, что они хотят, явно небезопасно.

Мошенничество и фишинговые атаки могут стать более изощренными, например, за счет использования дипфейковых видео, чтобы мошеннические действия выглядели более законными или правдоподобными. Мы уже видели это на примере закадрового голоса ИИ, наложенного на кадры знаменитостей, чтобы создать впечатление, что они одобряют эту идею.

Неизбежно также станет проще создавать без согласия видеоролики
с убедительным сходством с реальными людьми, которые могут быть использованы для причинения вреда или шантажа.

Я уверен, что мы также увидим, как его используют в попытках подорвать демократические процессы и распространять фейковые новости
и дезинформацию с целью подорвать доверие к политикам,
правительствам или институтам.

Спасибо, что ознакомились, ваш Павел М.