Найти в Дзене
Neuro-сеть

Видеогенератор Allegro — Текст в видео за 6 секунд

Приветствую!
Allegro — это модель, которая конвертирует текст в короткие видео до 6 секунд, генерируя их с разрешением 720p и частотой 15 кадров в секунду. Вы просто вводите текстовый запрос — и готово, а модель уже настраивается под все детали. python single_inference.py \
--user_prompt 'A seaside harbor with bright sunlight and sparkling seawater, with many boats in the water. From an aerial view, the boats vary in size and color, some moving and some stationary. Fishing boats in the water suggest that this location might be a popular spot for docking fishing boats.' \
--save_path ./output_videos/test_video.mp4
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 7.5 \
--num_sampling_steps 100 \
--seed 42 Интерполируйте видео до 30 кадров в секунду. Рекомендуется использовать EMA-VFI для интерполяции видео с 15 до 30 кадров в секунду. Для лучшего визуального качества используйте im
Оглавление

Приветствую!

Allegro — это модель, которая конвертирует текст в короткие видео до 6 секунд, генерируя их с разрешением 720p и частотой 15 кадров в секунду. Вы просто вводите текстовый запрос — и готово, а модель уже настраивается под все детали.

Характеристики модели

  • Название: Allegro
  • Тип: Текст-видео генерация
  • Доступ: Hugging Face, Github
  • Параметры VAE: 175M параметров
  • DiT: 2.8B параметров
  • Контекстная длина: 79.2K (88 кадров)
  • Используемая память: 9.3G при режиме BF16
  • Разрешение видео: 720 x 1280
  • Длительность видео: 6 секунд

Быстрый старт

  1. Скачайте Allegro с GitHub.
  2. Установите зависимости (Python >= 3.10, PyTorch >= 2.4). Требования.
  3. Скачайте веса
  4. Выполните инференс с нужным текстом, например, для сцены с морем:
python single_inference.py \
--user_prompt 'A seaside harbor with bright sunlight and sparkling seawater, with many boats in the water. From an aerial view, the boats vary in size and color, some moving and some stationary. Fishing boats in the water suggest that this location might be a popular spot for docking fishing boats.' \
--save_path ./output_videos/test_video.mp4
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 7.5 \
--num_sampling_steps 100 \
--seed 42

  • Опционально

Интерполируйте видео до 30 кадров в секунду. Рекомендуется использовать EMA-VFI для интерполяции видео с 15 до 30 кадров в секунду. Для лучшего визуального качества используйте imageio для сохранения видео.

Как это работает?

Технологии Allegro

  1. Масштабная обработка данных: Allegro обучался на огромных объемах видео, обработанных и классифицированных с помощью системы многомерной классификации, что помогает точнее отображать сложные сцены.
  2. Сжатие в визуальные токены: Видеоданные преобразуются в визуальные токены для упрощения обработки. Здесь используется VideoVAE — улучшенная версия image VAE с поддержкой временного моделирования.
  3. Video Diffusion Transformer (DiT): Allegro использует DiT с 3D-вниманием, что позволяет захватывать и пространственные, и временные аспекты движущегося видео.

Allegro в деле

Запросы могут быть разнообразными, от простых природных сцен до фантастических сюжетов. Например, текст "Pink fish swim in the sea" приведет к появлению видео с плавающими рыбками, а запрос "An astronaut riding a horse" визуализирует астронавта на коне.

Будущие разработки

Allegro продолжает развиваться: команда работает над добавлением функции генерации видео по изображениям, контролем движений и созданием более длинных видеороликов для полноценного повествования.

Allegro — это открытая модель, доступная сообществу и работающая на Apache 2.0, позволяя разрабатывать контент для самых разных задач — от реалистичных видеосцен до смелых воображаемых визуализаций.

Спасибо, что дочитали до конца! 🙏

Буду рад вашим комментариям🎤, лайкам🧡 и подпискам на мой канал:

Neuro-сеть | Дзен

Так же заходите в мою группу в VK и на канал Телеграм.

Вам может понравится: