Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества. В некоторых случаях результат даже лучше. Ключевой результат: - 97% разреженности attention - качество на уровне полного attention - быстрее и дешевле Метод называется SLA2. Главая идея В видеомоделях большая часть вычислений attention просто не нужна. Раньше использовали гибрид: - sparse attention - linear attention Но в этой схеме была скрытая проблема — математическая ошибка. Sparse-ветка была масштабирована неправильно (фактор α), и linear-ветке приходилось компенсировать эту неточность. Что делает SLA2 - исправляет формулировку attention - добавляет обучаемый роутер - модель сама решает: - где нужен полный attention - где можно использовать упрощённый Дополнительно: - применяется quantization-aware training - низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса Результаты (Wan2.1 — 1.3B и 14B): - 97% sparsity - 18,6× ускорение вычислен