Найти тему
10,2 тыс подписчиков

🚀 Microsoft представляет DeepSpeed-FastGen


DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.

Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM


🚀 Microsoft представляет DeepSpeed-FastGen  DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.
Около минуты