Машинное обучение

11,6 тыс подписчиков

Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases

В данной работе исследуется возможность использования квантования INT4 для языковых моделей и показываем.

🖥 Github: https://github.com/microsoft/DeepSpeed

⏩ Paper: https://arxiv.org/pdf/2301.12017v1.pdf

⭐️ Dataset: https://paperswithcode.com/dataset/multinli

ai_machinelearning_big_data

Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases В данной работе исследуется возможность использования квантования INT4 для языковых моделей и

Около минуты

20 апреля 2023