Найти в Дзене
Neurogen

✅ Kandinsky 5.0 Video Lite 2B

✅ Kandinsky 5.0 Video Lite 2B

По бенчмарку VBench #1 среди open-source моделей в своём классе. Превосходит Wan 2.1 14B и Wan 2.2 5B при в 15 раз меньшем количестве параметров. Скорее всего лучшее понимание русских культурных концепций среди всех опен сорсов.

Доступно 8 вариантов модели:

SFT - максимальное качество (139-224 сек на H100)

CFG-distilled - в 2 раза быстрее

Diffusion-distilled - в 6 раз быстрее (35-61 сек)

Pretrain - для дообучения исследователями

Технологический стек:

- Latent Diffusion с Flow Matching

- Diffusion Transformer (DiT) с cross-attention

- Qwen2.5-VL + CLIP для текстовых эмбеддингов

- HunyuanVideo 3D VAE для кодирования видео

- Собственный блок CrossDiT для оптимальной производительности

Оптимизации

- Метод NABLA - ускорение в 3 раза без потери качества

- MagCache - кэширование для дополнительного ускорения

- Torch.compile оптимизация, экономия 27% времени

- Memory offloading - снижение потребления VRAM на 35%

Поддерживает создание видео длительностью 5 и 10 секунд 768×512

🔘Тренировочный процесс

Подготовка данных:

- 6 млрд изображений и 35 млн видео собрано

- 1.5 млрд коротких сцен после обработки

- 124 млн отфильтрованных сцен для обучения

- Специальная коллекция из 230K сцен русской культуры

Обучение:

1. Pretrain на 256p изображениях

2. Добавление коротких видео

3. Повышение до 512p разрешения

4. SFT на качественном датасете

Примеры работ

HuggingFace

GitHub

Интеграции: Jupyter notebooks, ComfyUI, Diffusers

Beta-тестирование доступно через их бота

-2
-3
-4
-5
-6
-7