Найти в Дзене
Машинное обучение

✔️ SLA2 - Sparse-Linear Attention with Learnable Routing and QAT

Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества. В некоторых случаях результат даже лучше. Ключевой результат: - 97% разреженности attention - качество на уровне полного attention - быстрее и дешевле Метод называется SLA2. Главая идея В видеомоделях большая часть вычислений attention просто не нужна. Раньше использовали гибрид: - sparse attention - linear attention Но в этой схеме была скрытая проблема — математическая ошибка. Sparse-ветка была масштабирована неправильно (фактор α), и linear-ветке приходилось компенсировать эту неточность. Что делает SLA2 - исправляет формулировку attention - добавляет обучаемый роутер - модель сама решает: - где нужен полный attention - где можно использовать упрощённый Дополнительно: - применяется quantization-aware training - низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса Результаты (Wan2.1 — 1.3B и 14B): - 97% sparsity - 18,6× ускорение вычислен

✔️ SLA2 - Sparse-Linear Attention with Learnable Routing and QAT

Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества.

В некоторых случаях результат даже лучше.

Ключевой результат:

- 97% разреженности attention

- качество на уровне полного attention

- быстрее и дешевле

Метод называется SLA2.

Главая идея

В видеомоделях большая часть вычислений attention просто не нужна.

Раньше использовали гибрид:

- sparse attention

- linear attention

Но в этой схеме была скрытая проблема — математическая ошибка.

Sparse-ветка была масштабирована неправильно (фактор α),

и linear-ветке приходилось компенсировать эту неточность.

Что делает SLA2

- исправляет формулировку attention

- добавляет обучаемый роутер

- модель сама решает:

- где нужен полный attention

- где можно использовать упрощённый

Дополнительно:

- применяется quantization-aware training

- низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса

Результаты (Wan2.1 — 1.3B и 14B):

- 97% sparsity

- 18,6× ускорение вычислений

- 4,35× снижение общей задержки (14B)

Самое интересное:

При 97% разреженности SLA2 показывает лучшее качество,

чем все базовые методы при 90%.

Настоящий прогресс в AI - это не только новые модели,

а умение сохранять качество, радикально снижая вычисления.

https://arxiv.org/abs/2602.12675