Думаю, мы все согласны с тем, что эта история с ИИ зашла слишком далеко.
Вчера Сэм Альтман, генеральный директор OpenAI, анонсировал Sora, новый генератор видео с искусственным интеллектом. Как и DALL-E и ChatGPT до него, Sora способен принимать команды на естественном языке от пользователя, понимать запрос и воспроизводить его в соответствии с рекламой. Только вместо того, чтобы выдавать текстовые ответы или генерировать изображение, Sora генерирует целое реалистичное видео лучше, чем любая программа ИИ, которую я когда-либо видел. Я не хочу сказать, что это комплимент.
Первое впечатление от Sora: ужас
Компания OpenAI разместила на странице анонса Sora серию различных видеороликов, демонстрирующих ее возможности, и они потрясают - в худшем смысле этого слова. Sora может генерировать анимированный контент, например, "короткого пушистого монстра, стоящего на коленях возле тающей красной свечи" или "мультяшного кенгуру, танцующего диско". Хотя конечный результат не может сравниться с качеством, скажем, Pixar или DreamWorks, они в основном выглядят профессионально (а некоторые определенно выглядят лучше, чем другие). Вряд ли многие с первого взгляда догадались бы, что в процессе не участвовали люди.
Но если анимационный потенциал OpenAI вызывает опасения, то реалистичные видеоролики просто ужасают. OpenAI продемонстрировал "съемку с дрона" исторической церкви на побережье Амальфи, парад людей, празднующих китайский Новый год по лунному календарю, и кадр с заснеженной улицы в Токио, и я обещаю, что при первом же просмотре вы решите, что эти видео реальны. Некоторые из них все еще не кажутся мне созданными искусственным интеллектом, но я знаю, что это так.
Даже те, в которых есть недостатки ИИ, например искажение и смещение объектов, можно спутать со сжатием видео. Есть видео, где щенки играют в снегу, и хотя там есть некоторые заминки, которые вы заметите, узнав, что это не настоящее, физика и качество изображения создают иллюзию. Как ни один из этих щенков не является настоящим? Они так явно любят снег. Боже, неужели мы уже живем в Матрице?
Как работает Sora?
Хотя у нас нет всех подробностей, OpenAI описывает основные процессы Sora в своем техническом отчете. Во-первых, Sora - это диффузионная модель. Как и генераторы изображений с искусственным интеллектом, Sora создает видео, начиная, по сути, с кучи статического шума и удаляя этот шум до тех пор, пока оно не станет похожим на искомое изображение.
Sora обучается на единицах данных, называемых патчами: Эти патчи создаются путем сжатия изображений и видео в "латентное пространство низкого измерения", а затем разбиваются на "пространственно-временные" патчи - единицы, которые модель действительно понимает. Эти патчи содержат информацию о пространстве и времени для данного видео. Затем Sora генерирует видео в этом "латентном" пространстве, а декодер переводит его обратно в "пиксельное" пространство, получая конечный результат.Однако компания не подтверждает, откуда берутся эти видео- и фотоданные. (Они говорят, что Sora создана на основе исследований, проведенных в моделях DALL-E и GPT, и использует ту же технику повторного ввода текста из DALL-E 3 для обучения модели на описательных подсказках пользователя.
Что еще может делать Sora?
В то время как она, очевидно, может генерировать видео из стандартных подсказок, OpenAI утверждает, что Sora может генерировать видео из неподвижных изображений. Исследователи Apple работают над подобным процессом с помощью своей программы Keyframer.
Она также может расширять существующее видео вперед или назад во времени. OpenAI продемонстрировал пример этого на примере видео с трамваем в Сан-Франциско. Он добавил около 15 секунд дополнительного видео к началу тремя разными способами. Сначала все три варианта выглядят по-разному, но в конце все синхронизируются в один и тот же оригинальный видеоклип. С помощью этой техники можно делать и "идеальные петли".
OpenAI считает, что Sora идеально подходит для моделирования миров. (Она может создавать видео с последовательными 3D-элементами, так что люди и объекты остаются на месте и взаимодействуют так, как должны. Sora не теряет следа людей и объектов, когда они покидают кадр; она может запоминать действия людей и объектов, которые оказывают влияние на "мир", например, когда кто-то рисует на холсте. Она также может генерировать Minecraft на лету, симулируя игрока и одновременно создавая мир вокруг него.
Sora не идеальна
К чести OpenAI, компания отмечает существующие недостатки и ограничения Sora. По словам компании, модель может с трудом воспроизводить точную физику в "сложных сценах", а также некоторые причинно-следственные ситуации. OpenAI приводит пример видео, на котором человек ест печенье, но когда вы видите печенье после этого, на нем нет следа от укуса. Очевидно, что разбивание стекла также является проблемой для рендеринга.
Компания также утверждает, что Sora может испортить "пространственные детали" в ваших подсказках (например, перепутать левое с правым) и не сможет правильно отрисовывать события, происходящие во времени.
Некоторые из этих ограничений можно увидеть в видеороликах, которые OpenAI показывает в качестве доказательства "ошибок" Sora. На подсказку, в которой Сору просят сгенерировать бегущего человека, Сора генерирует человека, бегущего не в ту сторону по беговой дорожке; когда подсказка просит археологов обнаружить пластиковый стул в пустыне, "археологи" достают из песка лист, и стул материализуется из него, по сути, из ниоткуда. (Этот момент особенно поражает воображение).
Будущее не сейчас, но очень скоро
Если вы пролистаете ознакомительный сайт Sora, у вас может начаться приступ паники. Но за исключением видеороликов, которые OpenAI называет ошибками, это лучшие видео, которые Sora может создать прямо сейчас, созданные для демонстрации ее возможностей.
После анонса Сэм Альтман написал в Twitter и попросил пользователей присылать ему ответы, чтобы пропустить их через Sora. Он опубликовал в Твиттере конечные результаты примерно восьми вариантов, и я сомневаюсь, что какой-либо из них попал бы на страницу анонса. Первая попытка "Полуутка-полудракон летит через прекрасный закат с хомяком, одетым в приключенческое снаряжение, на спине" была до смешного неудачной и выглядела как что-то из чернового варианта мультфильма 2000-х годов.
А вот конечный результат "двух золотистых ретриверов, ведущих подкаст на вершине горы", напротив, озадачил: Выглядит так, как будто кто-то взял стоковые кадры всех активов и быстро смонтировал их друг на друга. Это не выглядит "реальным", а скорее отфотошопленным, что опять же поднимает вопрос о том, на чем именно Sora тренируется:
Эти быстрые демонстрационные ролики помогли мне почувствовать себя немного лучше, но только чуть-чуть. Я не думаю, что Sora находится на том этапе, когда она может по своей прихоти генерировать реалистичные видео, незаметно отличающиеся от реальности. Скорее всего, OpenAI перебрала тысячи и тысячи результатов, прежде чем остановиться на тех, которые мы видим в анонсе.
Но это не значит, что Sora не страшна. Для ее улучшения не потребуется много исследований или времени. Ведь еще 10 месяцев назад ИИ создавал видео. Интересно, что выдаст Sora, если ей дать тот же самый запрос:
OpenAI утверждает, что принимает все необходимые меры предосторожности: В настоящее время компания работает с "красными командами" над исследованиями по снижению вреда и хочет снабдить контент, созданный Sora, водяным знаком, как у других программ искусственного интеллекта, чтобы вы всегда могли определить, что что-то было создано с помощью технологии OpenAI.
Но я имею в виду, да ладно: Некоторые из этих видео слишком хороши. Мы уже давно перешли к тому, что может обмануть вас с первого взгляда, но в ретроспективе покажется подделкой. В некоторые из этих видео трудно поверить, что они не настоящие. Если это может впечатлить тех из нас, кто зарабатывает на жизнь, глядя на контент, созданный искусственным интеллектом, то как средний пользователь социальных сетей должен понять, что реалистичное видео в его ленте на Facebook было сделано роботами?
Не хочу показаться слишком мрачным, но в этом году в более чем 50 странах проходят выборы с высокими ставками, и в США ИИ уже использовался для обмана избирателей - и это только со звуком. В этом году вам придется включить свои детекторы бреда на максимум, потому что, как я полагаю, мы увидим самые убедительные мультимедийные аферы и кампании по дезинформации.
Надейтесь, что эти водяные знаки действительно работают, люди. Это будет дикая поездка.