Приветствую!
Allegro — это модель, которая конвертирует текст в короткие видео до 6 секунд, генерируя их с разрешением 720p и частотой 15 кадров в секунду. Вы просто вводите текстовый запрос — и готово, а модель уже настраивается под все детали. python single_inference.py \
--user_prompt 'A seaside harbor with bright sunlight and sparkling seawater, with many boats in the water. From an aerial view, the boats vary in size and color, some moving and some stationary. Fishing boats in the water suggest that this location might be a popular spot for docking fishing boats.' \
--save_path ./output_videos/test_video.mp4
--vae your/path/to/vae \
--dit your/path/to/transformer \
--text_encoder your/path/to/text_encoder \
--tokenizer your/path/to/tokenizer \
--guidance_scale 7.5 \
--num_sampling_steps 100 \
--seed 42 Интерполируйте видео до 30 кадров в секунду. Рекомендуется использовать EMA-VFI для интерполяции видео с 15 до 30 кадров в секунду. Для лучшего визуального качества используйте im