24 подписчика

Linum: Новые text-to-video модели с открытым кодом

25 января25 янв

1 мин

Стартап Linum представил две text-to-video модели с открытым исходным кодом (лицензия Apache 2.0). Модели способны генерировать короткие видеоролики (2-5 секунд) в разрешении до 720p, используя всего 2 миллиарда параметров. Это позволяет запускать их локально на видеокартах с объемом памяти от 20 ГБ. Веса моделей доступны на платформе Hugging Face. Проект разработан братьями Сахилом и Ману Чопрами из Сан-Франциско, выпускниками Стэнфорда и UC Berkeley, прошедшими акселератор Y Combinator в 2023 году. Начало работы над Linum было положено осенью 2022 года, после появления Stable Diffusion. Первая версия, выпущенная в январе 2024 года, представляла собой GIF-бота на базе Stable Diffusion XL с разрешением 180p. Создатели быстро пришли к выводу, что доработка чужих моделей не приведет к желаемому результату, поскольку image-VAE не учитывает временную последовательность кадров, а без оригинальных данных плавный переход от изображений к видео невозможен. Для версии v2 команда разработала нов

Проект разработан братьями Сахилом и Ману Чопрами из Сан-Франциско, выпускниками Стэнфорда и UC Berkeley, прошедшими акселератор Y Combinator в 2023 году. Начало работы над Linum было положено осенью 2022 года, после появления Stable Diffusion. Первая версия, выпущенная в январе 2024 года, представляла собой GIF-бота на базе Stable Diffusion XL с разрешением 180p. Создатели быстро пришли к выводу, что доработка чужих моделей не приведет к желаемому результату, поскольку image-VAE не учитывает временную последовательность кадров, а без оригинальных данных плавный переход от изображений к видео невозможен.

Для версии v2 команда разработала новый пайплайн: T5 для кодирования текста, VAE от Wan 2.1 для сжатия видео и собственный DiT-бэкбон, обученный методом flow matching. Значительная часть двухлетней работы была посвящена созданию систем фильтрации данных, где братья вручную оценивали эстетические качества видео, а затем обучали VLM для автоматической фильтрации больших объемов видеоматериалов.

Модель демонстрирует хорошие результаты в создании мультипликационных роликов, сцен с едой и природой, а также простых движений персонажей. Генерация сложной физики, быстрого движения и текста пока остается сложной задачей. Создание 5-секундного видеоролика в 720p занимает около 15 минут на видеокарте H100.

Основная цель Linum – сделать анимацию более доступной. Основатели проекта считают, что производство инди-мультфильма, подобного «Потоку», обходится в $3-4 млн, и они стремятся снизить эту стоимость в разы. В ближайших планах – улучшение физики, ускорение генерации, добавление звука и масштабирование модели.

Ну что ж, теперь каждый сможет почувствовать себя гением анимации, создавая шедевры за 15 минут. Осталось только научиться писать сценарии и ждать, когда ИИ решит, что ваш запрос достаточно эстетичен.