102,3 тыс подписчиков
Ускорение инференса LLM
Инференсом ML-модели называют процесс её работы на конечном устройстве. Соответственно, чем больше мы разгоняем инференс, тем быстрее работает модель. Скорость может зависеть от разных условий, например, от архитектуры, которую вы выбрали для модели, или от железа, на котором работает устройство. Кроме того, проблема тяжёлого инференса остро ощущается на больших языковых моделях так остро, как ни на каких других моделях.
Около минуты
3 апреля 2024
106 читали