Найти в Дзене

vLLM, TensorRT-LLM, TGI, Ollama, Text Generation WebUI: что выбрать для он-прем инференса LLM

Быстрый инженерный разбор от MDM Electronics Одинаковое «железо» — разная скорость и стоимость токена. Сервер инференса решает, как будет расходоваться VRAM, как быстро пойдут токены и выдержит ли ваша инфраструктура пиковую нагрузку. Разберём пять популярных стэков для он-прем и дадим готовые пресеты под типовые сценарии. Без маркетинговой мишуры — только инженерные факты и практические советы. L;DR (коротко)
vLLM — максимум пропускной способности токенов и эффективный KV-кеш. Лучший базовый выбор для чат-ботов и API с высокой конкуррентностью.
TensorRT-LLM — минимальная латентность на NVIDIA, особенно под короткие ответы и жёсткие p95 SLA. Требует больше инженерии.
TGI (Text Generation Inference) — стабильный прод-сервер с удобным API, баланс latency/функций, гибкий роутинг.
Ollama — мгновенный старт и PoC/edge-кейсы, но ограничен под «большой прод».
Text Generation WebUI — удобная «админка» для тестов и демонстраций, не про высокую нагрузку.Как мы сравнивали
Метрики: p50/p95 laten

Быстрый инженерный разбор от MDM Electronics

Одинаковое «железо» — разная скорость и стоимость токена. Сервер инференса решает, как будет расходоваться VRAM, как быстро пойдут токены и выдержит ли ваша инфраструктура пиковую нагрузку. Разберём пять популярных стэков для он-прем и дадим готовые пресеты под типовые сценарии. Без маркетинговой мишуры — только инженерные факты и практические советы.

L;DR (коротко)

vLLM — максимум пропускной способности токенов и эффективный KV-кеш. Лучший базовый выбор для чат-ботов и API с высокой конкуррентностью.
TensorRT-LLM — минимальная латентность на NVIDIA, особенно под короткие ответы и жёсткие p95 SLA. Требует больше инженерии.
TGI (Text Generation Inference) — стабильный прод-сервер с удобным API, баланс latency/функций, гибкий роутинг.
Ollama — мгновенный старт и PoC/edge-кейсы, но ограничен под «большой прод».
Text Generation WebUI — удобная «админка» для тестов и демонстраций, не про высокую нагрузку.Как мы сравнивали
Метрики: p50/p95 latency, токены/с (throughput), утилизация GPU/CPU/RAM/VRAM, стабильность при пиках, корректность стриминга.

Режимы: единый промпт/температура, прогрев модели, три профиля параллелизма (низкий/средний/высокий), фиксированные версии драйверов и фреймворков.

Железо-референс: 2×GPU 48 ГБ, 4×GPU 48 ГБ и 8×GPU 80–192 ГБ — типовые конфигурации наших клиентов.

MDM Electronics разрабатывает и внедряет решения «под ключ»: мы тестируем каждую конфигурацию под реальной нагрузкой ещё до ввода в эксплуатацию и поддерживаем её в проде.

Кандидаты: сильные и слабые стороны
vLLM
Сильное:
Потрясающий throughput за счёт эффективного KV-кеша и «умного» батчинга.
Хорош для множества параллельных коротких/средних ответов (чат-боты, ассистенты, RAG-запросы).
Часто выдаёт лучшую «цена/токен» на одинаковом железе.
Слабое:
Для экстремально низкой p95-латентности на сверхкоротких ответах иногда проигрывает узкоспециализированным пайплайнам (см. TensorRT-LLM).Кому: продуктовые команды, которые хотят «включить и полететь» с высоким RPS.TensorRT-LLM (NVIDIA)
Сильное:
Минимальная латентность и отличная эффективность на современных NVIDIA-GPU.
Глубокая оптимизация под краткие ответы и строгие SLA (финтех, колл-центры, интерактив).
Слабое:
Больше инженерии: профили, авто-тюнинг, поддержка версий — нужен DevOps/ML-инженер, который дружит с CUDA и профайлерами.
Привязанность к NVIDIA.
Кому: сервисы с чувствительностью к p95 и «застрелкой» первого токена.TGI (Text Generation Inference)
Сильное:
Продакшен-сервер «из коробки»: стабильный API, роутинг, квантизация, наблюдаемость.
Умеренный «порог входа», понятная эксплуатация, хорош для смешанных нагрузок.
Слабое:
Throughput и латентность на пике часто между vLLM и TensorRT-LLM, но не рекорд.Кому: команды, которым нужна продуктивность и аккуратная операционка без экстрима.Ollama
Сильное:
Ультра-быстрый старт, локальные модели, edge/ноутбуки/микросервисы.
Идеален для PoC, офлайн-режимов, «раздать инженерами попробовать прямо сейчас».
Слабое:
Не про высокую нагрузку и не про большие контексты в проде. Ограниченный контроль над тонкой оптимизацией.Кому: MVP, пилоты, кросс-функциональные команды, которым важна скорость эксперимента.Text Generation WebUI
Сильное:
Максимально удобная «панель управления» для тестов, демонстраций, сравнения LoRA/квантовок.
Богатый набор плагинов и настроек для исследовательского режима.
Слабое:
Не предназначен для High-RPS продакшена.Кому: R&D, пресейл-демо, быстрая валидация гипотез перед выбором боевого сервера.Типовые сценарии и готовые пресеты от MDM
1) Внутренний чат-бот / ассистент: окно 8k, до ~300 RPS

Софт: vLLM (OpenAI-совместимое API, стриминг).
Железо: 2×GPU по 48 ГБ, CPU с запасом потоков, RAM 256–384 ГБ, NVMe локально.
Сеть: 25/100 GbE внутри стойки, чтобы не терять на межузловых пересылках.
Почему так: оптимальная «цена/токен», стабильный p95, отличная утилизация GPU.2) Длинные контексты 16–32k для аналитиков / документов

Софт: TensorRT-LLM или TGI с аккуратной настройкой KV-офлоада.
Железо: 4×GPU по 48 ГБ (или 2×80 ГБ), RAM 384–512 ГБ, быстрый NVMe массив.
Почему так: лучше контролируем p95 на длинных промптах, минимизируем «захлёбывание» VRAM.3) Смешанная нагрузка RAG + чат (периодический инференс, отчёты)

Софт: TGI c роутингом по классам запросов (длинные/короткие), фоновая квантизация.
Железо: 8×GPU 80–192 ГБ, выделенные узлы под векторную БД и индексацию, 100 GbE/200 GbE.
Почему так: предсказуемость и наблюдаемость, удобно масштабировать по профилю нагрузки.

Практические нюансы, о которые чаще всего спотыкаются

KV-кеш — главный потребитель VRAM. Чем больше одновременных пользователей и длиннее контекст, тем важнее грамотный менеджмент кеша. vLLM делает это почти идеально; в TensorRT-LLM/TGI настройте офлоад и лимиты.
NUMA/CPU-pinning. Неправильная привязка потоков убивает latency, и вы «вините GPU».
Одинаковая среда. Версии драйверов, CUDA, PyTorch — фиксируйте, иначе дробление производительности.
Стриминг токенов. Для UX критичен «первый токен». TensorRT-LLM часто выигрывает на коротких ответах.
Мониторинг. Без метрик (p95, токены/с, VRAM, ошибки по классам запросов) оптимизации превращаются в гадание.

Мини-гайд по честному тесту в вашей среде

Прогрейте модели (холодный старт — отдельно).
Зафиксируйте промпт, температуру, длину ответа, включите стриминг.
Прогоните три профиля: 50/200/500 одновременных пользователей (или ваши реальные).
Снимите p50/p95, токены/с, утилизацию GPU/CPU, сетевые очереди.
Найдите «слом» (где растёт хвост задержек) и подберите батч/пэйджинг/раутинг.Стоимость владения: как не переплатить
Не гнаться за «самым быстрым» без KPI. Если у вас RPS умеренный, vLLM даст лучшую экономику.
Лицензии и поддержка. Учтите время инженеров и риски простоя. Иногда чуть меньшая скорость, но предсказуемая эксплуатация (TGI) — дешевле в год.
Апгрейды. Прирастать VRAM часто выгоднее, чем «ловить» оптимизациями p95 с нестабильным результатом.Чек-лист выбора

Модель и целевое окно контекста (8k/16k/32k+).
Требуемые p95 и минимальная задержка первого токена.
Одновременных пользователей сейчас и через 3–6 месяцев.
Нужны ли стриминг, RAG, мультимодальность.
Требования к наблюдаемости, откату моделей, A/B-роутингу.Как помогает MDM Electronics
Мы не просто продаём серверы — мы создаём готовые решения. Подбираем конфигурацию, ставим и настраиваем софт, интегрируем в вашу инфраструктуру, прогоняем тесты под реальной нагрузкой и берём эксплуатацию на себя. Если что-то ломается — быстро меняем компоненты, без бюрократии. Наша цель — чтобы система работала стабильно с первого дня и давала максимум производительности за свои деньги.Финальный совет

Хотите высокий RPS и лучшую экономику токена —
начните с vLLM.
Нужна жёсткая p95-латентность и «быстрый первый токен» —
смотрите в сторону TensorRT-LLM.
Нужен «ровный» прод с наблюдаемостью и роутингом —
TGI.
PoC/edge/быстрые эксперименты —
Ollama.
R&D и демо —
Text Generation WebUI.Готовы подобрать стек под вашу задачу?
Пришлите три числа:
модель/контекст, целевой p95, конкуррентность — мы отправим бесплатный пресет конфигурации (железо + сервер инференса + параметры запуска) и план нагрузочного теста под вашу инфраструктуру. Затем развернём решение «под ключ» и проверим под реальной нагрузкой.

Посмотреть конфигурации серверов для ИИ и получить бесплатную консультацию Вы можете на нашем сайте >>