Найти в Дзене
Neurogen

SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео

SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео SkyReels‑V2 — открытая система генерации видео произвольной длины по текстовым и визуальным подсказкам. Благодаря технологии Diffusion Forcing обеспечивает бесшовное продолжение кадров и создаёт «бесконечную» ленту. Основные возможности • Text‑to‑Video (T2V): ролик по текстовому описанию • Image‑to‑Video (I2V): превращение одного изображения в анимацию • Prompt Enhancer: встроенный LLM для расширения и детализации подсказок • USP/xDiT: распределённый инференс между GPU для ускорения вывода • SkyCaptioner: автоматическая генерация субтитров и аннотаций • В планах: модуль «Camera Director» и выпуск версии с 5 B параметров Конфигурации и аппаратные требования Версия Кадров × разрешение Необходимая VRAM (1 GPU) DF‑1.3 B 97 × 540 P ≈ 15 ГБ DF‑14 B 97 × 540 P ≈ 51 ГБ T2V‑14 B 121 × 540 / 720 P ≈ 43 ГБ Ключевые технологии Diffusion Model: «очистка» шума и восстановление деталей Diffusion Forcing: фрагментарн

SkyReels‑V2 - новая SOTA среди open-source моделей для генерации видео

SkyReels‑V2 — открытая система генерации видео произвольной длины по текстовым и визуальным подсказкам. Благодаря технологии Diffusion Forcing обеспечивает бесшовное продолжение кадров и создаёт «бесконечную» ленту.

Основные возможности

• Text‑to‑Video (T2V): ролик по текстовому описанию

• Image‑to‑Video (I2V): превращение одного изображения в анимацию

• Prompt Enhancer: встроенный LLM для расширения и детализации подсказок

• USP/xDiT: распределённый инференс между GPU для ускорения вывода

• SkyCaptioner: автоматическая генерация субтитров и аннотаций

• В планах: модуль «Camera Director» и выпуск версии с 5 B параметров

Конфигурации и аппаратные требования

Версия Кадров × разрешение Необходимая VRAM (1 GPU)

DF‑1.3 B 97 × 540 P ≈ 15 ГБ

DF‑14 B 97 × 540 P ≈ 51 ГБ

T2V‑14 B 121 × 540 / 720 P ≈ 43 ГБ

Ключевые технологии

Diffusion Model: «очистка» шума и восстановление деталей

Diffusion Forcing: фрагментарный шум и поэтапное восстановление для «бесшовности»

Reinforcement Learning: оценка плавности кадров и оптимизация поведения

Supervised Fine‑Tuning: доводка на высококачественных видеоматериалax

Производительность

• Human Bench: 3.14/5 — лучший среди открытых решений, близко к коммерческим сервисам

• V‑Bench: 83.9 % — наивысший показатель качества в open‑source

Все доступные варианты уже можно скачать на HuggingFaces

Протестировать онлайн можно на официальном сайте Skyreels

Ну что же, теперь ждем квантованные GGUF версии и поддержку в ComfyUI

upd.: Пошли первые воркфлоу для Comfy