✔️ SLA2 - Sparse-Linear Attention with Learnable Routing and QAT
Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества. В некоторых случаях результат даже лучше. Ключевой результат: - 97% разреженности attention - качество на уровне полного attention - быстрее и дешевле Метод называется SLA2. Главая идея В видеомоделях большая часть вычислений attention просто не нужна. Раньше использовали гибрид: - sparse attention - linear attention Но в этой схеме была скрытая проблема — математическая ошибка. Sparse-ветка была масштабирована неправильно (фактор α), и linear-ветке приходилось компенсировать эту неточность...