✅ Kandinsky 5.0 Video Lite 2B
По бенчмарку VBench #1 среди open-source моделей в своём классе. Превосходит Wan 2.1 14B и Wan 2.2 5B при в 15 раз меньшем количестве параметров. Скорее всего лучшее понимание русских культурных концепций среди всех опен сорсов.
Доступно 8 вариантов модели:
SFT - максимальное качество (139-224 сек на H100)
CFG-distilled - в 2 раза быстрее
Diffusion-distilled - в 6 раз быстрее (35-61 сек)
Pretrain - для дообучения исследователями
Технологический стек:
- Latent Diffusion с Flow Matching
- Diffusion Transformer (DiT) с cross-attention
- Qwen2.5-VL + CLIP для текстовых эмбеддингов
- HunyuanVideo 3D VAE для кодирования видео
- Собственный блок CrossDiT для оптимальной производительности
Оптимизации
- Метод NABLA - ускорение в 3 раза без потери качества
- MagCache - кэширование для дополнительного ускорения
- Torch.compile оптимизация, экономия 27% времени
- Memory offloading - снижение потребления VRAM на 35%
Поддерживает создание видео длительностью 5 и 10 секунд 768×512
🔘Тренировочный процесс
Подготовка данных:
- 6 млрд изображений и 35 млн видео собрано
- 1.5 млрд коротких сцен после обработки
- 124 млн отфильтрованных сцен для обучения
- Специальная коллекция из 230K сцен русской культуры
Обучение:
1. Pretrain на 256p изображениях
2. Добавление коротких видео
3. Повышение до 512p разрешения
4. SFT на качественном датасете
Интеграции: Jupyter notebooks, ComfyUI, Diffusers
Beta-тестирование доступно через их бота