76 подписчиков

Nvidia выкатила Latent Diffusion Models (LDM).

Используется векторное пространство вместо пиксельного, чтобы не задействовать большие вычисления. Фокус на генерации text-2-video и данных для симуляции компьютерного зрения в автомобилях. Причем, если по промту генерятся короткие вещи в несколько секунд, то для симуляции авто видеоряд можно генерить намного длиннее, в шапке пример на 5 минут.

Визуальная разница от других моделей:

* 24 к/с вместо 10-15 к/с

* Хорошая консистентность и контроль над кадром. Даже там, где камера или объект движется, всё выглядит без мешанины

* 1280 x 2048 для text-2-video (возможно если латентность пожет твоя gtx 1060 будет визжать, но тянуть)

* нет вотермарка Shutterstock 🥃

Очень интересно увидеть, где мы будем в конце года. Stability AI должны свой text-2-video в следующие пару месяцев выпустить. А там глядишь и Midjourney с другими игроками подоспеют.

Кстати это модель от Nvidia очень похожа и по названию и по подходу к text-2-video модели от Tencent. Также используется латентное (векторное пространство) для легковесного компьюта, также длинные видео... и также кода в открытом доступе нет.

В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть

00:04

00:10

и ещё 5

1 минута

7 мая 2023