Найти в Дзене
Social Mebia Systems

Как сделать длинное ИИ-видео без его деградации

Группа исследователей из УЦК (USTC), CUHK, Tongji, Tencent Hunyuan и Anhui Digital Security Lab представила простую, но эффектную идею для устранения одной из главных проблем автрорегресcивной (AR) генерации длинных видео: причиной накапливающегося дрейфа оказались «слишком чистые» предыдущие кадры. Решение — заставить все фреймы разделять один уровень шума и применить иерархическую денойзинговую стратегию. Итог — минуты и даже часы непрерывного видео без деградации. AR‑диффузионные модели удобны для потоковой генерации (streaming), но при переходе к длительным последовательностям страдают от накапливающихся ошибок: чем дальше по времени, тем сильнее дрейф и разрушение картинки. Традиционная практика — дождаться полного денойзинга предыдущего блока и подавать «чистый» кадр как контекст для следующего блока. Исследователи показали, что это именно та «ловушка чистоты», из‑за которой микро‑ошибки становятся «истиной» для модели и затем экспоненциально растут через последовательные шаги. К

Группа исследователей из УЦК (USTC), CUHK, Tongji, Tencent Hunyuan и Anhui Digital Security Lab представила простую, но эффектную идею для устранения одной из главных проблем автрорегресcивной (AR) генерации длинных видео: причиной накапливающегося дрейфа оказались «слишком чистые» предыдущие кадры.

Решение — заставить все фреймы разделять один уровень шума и применить иерархическую денойзинговую стратегию. Итог — минуты и даже часы непрерывного видео без деградации.

AR‑диффузионные модели удобны для потоковой генерации (streaming), но при переходе к длительным последовательностям страдают от накапливающихся ошибок: чем дальше по времени, тем сильнее дрейф и разрушение картинки.

Традиционная практика — дождаться полного денойзинга предыдущего блока и подавать «чистый» кадр как контекст для следующего блока. Исследователи показали, что это именно та «ловушка чистоты», из‑за которой микро‑ошибки становятся «истиной» для модели и затем экспоненциально растут через последовательные шаги.

Команда сравнила поведение с двунаправленной (bidirectional) диффузией, где кадры денойзятся одновременно и разделяют один шумовой уровень — и обнаружила, что это естественно сохраняет глобальную согласованность. Перенос этой идеи в причинно‑авторегресcивную схему привёл к HiAR — Hierarchical Autoregressive Denoising.

Что такое HiAR и как оно работает

  • Вместо строгой последовательной генерации «блок за блоком после полного денойзинга» HiAR выполняет причинную генерацию для всех блоков на каждом шаге денойзинга. Другими словами, контекст и генерируемый блок всегда имеют одинаковый уровень шума.
  • Такая реконфигурация снижает передачу и усиление ошибок между блоками и одновременно открывает возможность пайплайновой параллельной инференции.
  • Архитектурно это представлено как иерархический денойзинг, который использует коарс‑to‑файн динамику и координирует зависимости между фреймами.

При дистилляции AR‑моделей часто возникает «курс на низкое движение» — модель снижает потери, генерируя почти статичные кадры. Чтобы сохранить динамику и разнообразие движений, команда ввела Forward‑KL регуляризатор, вычисляемый в режиме двунаправленного внимания. Наблюдение оказалось важным: полученная причинная модель сохраняет сильные элементы двунаправленного внимания, и регуляризация помогает удержать правдоподобную динамику без вреда для исходной дистилляции.

Результаты и производительность

  • На длительном бенчмарке VBench (20s) HiAR показал наилучшие показатели по стабильности: Drift Score снизился до 0.257 — заметное уменьшение дрейфа по сравнению с базами.
  • По качественным метрикам HiAR также лидирует.
  • Самое впечатляющее: команда сгенерировала 3‑часовое непрерывное видео без деградации, обучив модель всего на 5‑секундных отрезках (с оговорками по семантической и инструкционной согласованности на экстремально длинных отрезках).
  • Инженерно HiAR обеспечивает ускорение инференса ≈1.8× при 4 шагах денойзинга, достигая пропускной способности ~30 fps и задержки на один чанк ~0.30 с — то есть подход годится и для потоковой генерации в реальном времени.

Ограничения и замечания команды

  • В текущей версии отсутствуют внешние модули памяти, и дистилляция проводилась на относительно небольшом Wan1.3B моделe, поэтому при экстремально длинных видео могут возникать проблемы с семантической долгосрочной связностью и точным соблюдением инструкций.
  • Тем не менее сам эффект — существенное снижение визуального дрейфа — остаётся доказанным и открывает путь для дальнейшего улучшения (интеграция памяти, масштабирование моделей и пр.).

Источники и ссылки

Код: https://github.com/Jacky-hate/HiAR

HiAR — пример того, как внимательное анализирование причин ошибочной деградации и перенос интуиций из двунаправленных моделей в автрорегресcивную схему дают простое и мощное практическое улучшение. Для генерации действительно длинных и стабильных видео это один из наиболее перспективных путей сегодня.

Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/