«Нейросеть создаёт видео» – изображение сгенерировано нейросетью Ideogram
Нейросети продолжают своё стремительное развитие. Неплохо освоив создание грамотных текстов, графики и даже музыки, «нейронки» готовы основательно приняться за видео.
Сегодня самой ожидаемой нейросетью в этом направлении является Sora от команды OpenAI, которая стоит за созданием ChatGPT. Sora была анонсирована ещё в феврале, а в ближайшие месяцы, по словам разработчиков, доступ к ней может открыться для всех желающих.
Качество видео Sora, которые OpenAI сейчас охотно в рекламных целях показывают публике, удивляет своей детализацией и реалистичностью. Казалось бы, конкуренты у авторов ChatGPT появятся здесь ещё нескоро. Однако китайский стартап Shengshu Technology совместно с университетом Цинхуа, кажется, решили доказать обратное и представили нейросеть Vidu:
В сети уже есть кадры, где трейлер Vidu сравнивают с похожими по контенту роликами Sora. У последней уровень реализма в ряде сценариев явно выше, но в некоторых моментах Vidu на фоне своего могущественного конкурента смотрится весьма неплохо. Так что дебют для китайского стартапа вышел успешным.
Увы, свободного доступа, как и в случае с Sora, к данной сети пока нет. Однако китайская команда на своём сайте активно набирает тестеров, чтобы они генерировали видео и отсылали обратную связь команде разработчиков. С учётом, что Sora может стартовать уже в ближайшие месяцы, сильно «тянуть» китайцы также не станут, и о Vidu мы наверняка скоро ещё услышим.
Помимо похожего на Sora высокого качества картинки, главная особенность Vidu заключается в продолжительности роликов. Пользователь сможет создавать видео длиной до 16 секунд.
Кадр из видео, созданного Sora. Разработчики обещают, что к публичному релизу нейросети в её роликах появится звук, а также будет возможность их редактирования
На данный момент на рынке уже есть нейросети, создающие относительно качественные видео, такие как Runway Gen-2, Pika Labs и Genmo. Они могут генерировать видео с нуля или «оживлять» ваши картинки. Однако все они ограничены максимум 4 секундами целостного видео.
И это ограничение вовсе не из-за недостатка мощностей. После 4 секунд видеоряд в буквальном смысле распадается, а объекты расползаются в кадре. То есть нейросеть теряет «смысл» происходящего и на сегодняшний день может качественно удерживать его лишь несколько секунд. Если авторам Vidu удалось поднять планку времени в 4 раза, то это действительно интересно.
Также китайская компания сообщает, что ролики пока создаются в разрешении Full HD, а на обучение модели у них ушло всего два месяца. Как это бывает в подобных случаях, не исключено, что пока команда вносит правки в Vidu 1.0, на их оборудовании параллельно уже может обучаться более совершенная и крупная модель.
Интерфейс уже доступного пользователям «простого» генератора видео от Pika Labs
Напомним, что в последние годы США всеми силами активно противодействуют поставкам в Китай любого «железа», которое может помочь в обучении ИИ. В первую очередь это касается GPU от Nvidia. Тем не менее китайцам удалось накопить определённый запас ИИ-ускорителей.
Сейчас наиболее активно с нейросетями в Китае работают такие гиганты, как Alibaba, Baidu, Tencent, Huawei и ByteDance (авторы TikTok). Местные нейросети активно теснят на китайском рынке OpenAI с их ChatGPT и иные подобные решения.
Что касается отечественных компаний, то нашими ИИ-флагманами пока являются Яндекс и Сбер. Обе ещё в прошлом году представили свои первые наработки по генерации видео. В ближайшие время Сбер намерен открыть доступ к модели Kandinsky Video 1.1. Она отличается от 1.0 заметно улучшенным качеством видео и вдвое увеличенным разрешением. А на лето компания готовит некий более крупный анонс, также связанный с генерацией видеоконтента.