9849 подписчиков
Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases
В данной работе исследуется возможность использования квантования INT4 для языковых моделей и показываем.
🖥 Github: https://github.com/microsoft/DeepSpeed
⭐️ Dataset: https://paperswithcode.com/dataset/multinli
Около минуты
20 апреля 2023