76 подписчиков
Nvidia выкатила Latent Diffusion Models (LDM).
Используется векторное пространство вместо пиксельного, чтобы не задействовать большие вычисления. Фокус на генерации text-2-video и данных для симуляции компьютерного зрения в автомобилях. Причем, если по промту генерятся короткие вещи в несколько секунд, то для симуляции авто видеоряд можно генерить намного длиннее, в шапке пример на 5 минут.
Визуальная разница от других моделей:
* 24 к/с вместо 10-15 к/с
* Хорошая консистентность и контроль над кадром. Даже там, где камера или объект движется, всё выглядит без мешанины
* 1280 x 2048 для text-2-video (возможно если латентность пожет твоя gtx 1060 будет визжать, но тянуть)
* нет вотермарка Shutterstock 🥃
Очень интересно увидеть, где мы будем в конце года. Stability AI должны свой text-2-video в следующие пару месяцев выпустить. А там глядишь и Midjourney с другими игроками подоспеют.
Кстати это модель от Nvidia очень похожа и по названию и по подходу к text-2-video модели от Tencent. Также используется латентное (векторное пространство) для легковесного компьюта, также длинные видео... и также кода в открытом доступе нет.
В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть
1 минута
7 мая 2023