10,2 тыс подписчиков
🚀 Microsoft представляет DeepSpeed-FastGen
DeepSpeed-FastGen обеспечивает высокопроизводительную генерацию текста для LLM с помощью MII и DeepSpeed-Inference.
Производительность генераций повышается в 2,3 раза, задержка в 2 раза ниже по сравнению с системами SotA, такими как vLLM
Около минуты
18 января 2024