Найти в Дзене
10,3 тыс подписчиков

7 фреймворков для работы с LLM


1. vLLM
vLLM  —  быстрая и простая в использовании библиотека для вывода и поддержания LLM. Достигается 14-кратное  —  24-кратное увеличение производительности по сравнению с HuggingFace Transformers (HF) и 2,2-кратное  —  2,5-кратное по сравнению с HuggingFace Text Generation Inference (TGI).

Text Generation Inference  —  сервер для вывода текстов, написанных на Rust, Python и gRPC. Используется в производстве в HuggingFace для управления виджетами API-вывода LLM.

CTranslate2  —  это библиотека, написанная на языках C++ и Python, для эффективного вывода данных с помощью моделей-трансформеров.

Благодаря DeepSpeed, MII обеспечивает вывод данных с низкой задержкой и высокой производительностью.

OpenLLM  —  это открытая платформа для работы с большими языковыми моделями (LLM) в производственной среде.

Ray Serve  —  это масштабируемая библиотека для создания API вывода в режиме онлайн. Serve не зависит от фреймворков, поэтому вы можете использовать один инструментарий для обслуживания любых моделей глубокого обучения.

MLC LLM (Machine Learning Compilation LLM, компиляция машинного обучения для LLM)  —  это универсальное решение для развертывания, которое позволяет LLM эффективно работать на потребительских устройствах, используя нативное аппаратное ускорение.

7 фреймворков для работы с LLM  1. vLLM vLLM  —  быстрая и простая в использовании библиотека для вывода и поддержания LLM.
1 минута