Группа исследователей из УЦК (USTC), CUHK, Tongji, Tencent Hunyuan и Anhui Digital Security Lab представила простую, но эффектную идею для устранения одной из главных проблем автрорегресcивной (AR) генерации длинных видео: причиной накапливающегося дрейфа оказались «слишком чистые» предыдущие кадры. Решение — заставить все фреймы разделять один уровень шума и применить иерархическую денойзинговую стратегию. Итог — минуты и даже часы непрерывного видео без деградации. AR‑диффузионные модели удобны для потоковой генерации (streaming), но при переходе к длительным последовательностям страдают от накапливающихся ошибок: чем дальше по времени, тем сильнее дрейф и разрушение картинки. Традиционная практика — дождаться полного денойзинга предыдущего блока и подавать «чистый» кадр как контекст для следующего блока. Исследователи показали, что это именно та «ловушка чистоты», из‑за которой микро‑ошибки становятся «истиной» для модели и затем экспоненциально растут через последовательные шаги. К