Pusa-VidGen Исследователи представили Pusa — модель диффузии для генерации видео, которая использует подход с векторизованными временными шагами вместо традиционных скалярных. 🔘Что такое Pusa? Pusa (от китайского "Тысячерукая Гуаньинь") — это парадигмальный сдвиг в моделировании видео-диффузии через покадровый контроль шума с векторизованными временными шагами. 🔘Впечатляющие результаты Pusa V1.0 Эффективность: - Превосходит Wan-I2V-14B при 1/200 стоимости обучения ($500 против $100,000) - Обучается на датасете в 1/2500 раз меньше (4K против 10M образцов) - Достигает VBench-I2V score 87.32% (против 86.86% у Wan-I2V-14B) 🔘Ключевые возможности Мультизадачность - Text-to-Video — генерация видео из текста - Image-to-Video — анимация статичных изображений - Start-End Frames — создание видео между ключевыми кадрами - Video Extension — продление существующих видео - Video Transition — плавные переходы между роликами 🔘Архитектура Vectorized Timestep Adaptation (VTA): - Покадровый к