11 тыс подписчиков

🌟 GuideLLM: Оценка и анализ производительности LLM в реальных условиях.

GuideLLM - инструмент для оценки и оптимизации развертывания LLM. Моделируя рабочие нагрузки по инференсу в реальных условиях, GuideLLM помогает оценить производительность, потребности в ресурсах и принять решение по необходимой аппаратной конфигурации для запуска LLM.

Возможности :

🟢Оценка производительности: анализируйте инференс LLM при различных сценариях нагрузки;

🟢Оптимизация ресурсов: определите наиболее подходящие конфигурации оборудования для оптимальной работы целевой модели;

🟢Оценка затрат: понимание финансовых последствий различных стратегий развертывания и принятие обоснованных решений для минимизации затрат;

🟢Тестирование масштабируемости: имитация масштабирования с большим количеством одновременных пользователей.

Для использования GuideLLM требуется OpenAI-совместимый сервер, например, vLLM. Целевая модель для оценки может быть размещена как локально, так и в сети.

▶️ Установка и запуск на примере оценки квантованной Llama-3.1-8B :

# Установка из pip

pip install guidellm

# Запуск модели в vLLM

vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"

# Запуск GuideLLM

guidellm \

--target "http://localhost:8000/v1" \

--model "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16" \

--data-type emulated \

--data "prompt_tokens=512,generated_tokens=128"

По умолчанию, GuideLLM проводит серию оценок производительности с разной частотой запросов, каждая из которых длится 120 секунд, и результаты выводятся в терминал.

После завершения оценки GuideLLM подведет итоги, в том числе - метрики эффективности.

✔️ Опции CLI и среды для настройки метрик:

🟠продолжительность выполнения каждого бенчмарка;

🟠количество одновременных запросов;

🟠частота запросов;

🟠тип выполнения оценки,

🟠выбор источника данных для оценки;

Документация к находится в стадии разработки. Полный набор опций запуска и конфигурирования GuideLLM можно посмотреть командами

guidellm --help и guidellm-config

📌Лицензирование : Apache 2.0 License.

🖥Github [ Stars: 33 | Issues: 2 | Forks: 1]

@machinelearning

#AI #Guidellm #MLTool #LLM #Benchmark

1 минута

2 сентября 2024