17 подписчиков

Как выбрать сервер для локального запуска ChatGPT-подобных моделей — гайд без маркетинга

17 октября 202517 окт 2025

3 мин

Локальные LLM (большие языковые модели) — это уже не «игрушка для гигантов». Все чаще компании запускают свои ассистенты и чат-боты на собственных серверах: так быстрее, безопаснее и в долгую — дешевле облака. Разбираемся простыми словами: какое железо нужно, чтобы всё работало стабильно с первого дня. В MDM Electronics мы ставим клиентам готовые решения «под ключ»: от подбора до инсталляции и тестов под реальной нагрузкой. Для LLM решает не только «мощность чипа», а объём VRAM. Правило простое: чем больше одновременно пользователей и длиннее «окно контекста», тем больше VRAM нужно. GPU не должны простаивать. Чтобы кормить их данными без задержек: Если серверов несколько, сеть становится критична: Драйверы, CUDA/ROCm, фреймворки, рантаймы (vLLM, TensorRT-LLM, Triton, Ollama/KServe), мониторинг.

Важно: NUMA-настройки, пинning потоков, профили питания — мелочи, которые дают +10–30% производительности. Не уверены, какая конфигурация нужна? Мы делаем расчёт под вашу модель, контекст, пол

Оглавление

Когда локальный запуск выгоднее облака
Что на самом деле влияет на скорость и качество LLM
1) GPU и видеопамять (VRAM)

Локальные LLM (большие языковые модели) — это уже не «игрушка для гигантов». Все чаще компании запускают свои ассистенты и чат-боты на собственных серверах: так быстрее, безопаснее и в долгую — дешевле облака. Разбираемся простыми словами: какое железо нужно, чтобы всё работало стабильно с первого дня.

Когда локальный запуск выгоднее облака

Конфиденциальность: персональные/финансовые/медицинские данные остаются внутри периметра.
Предсказуемость затрат: при постоянной нагрузке свой сервер окупается за 4–8 месяцев.
Контроль производительности: нет квот, «узких горлышек» и внезапных ограничений.

В MDM Electronics мы ставим клиентам готовые решения «под ключ»: от подбора до инсталляции и тестов под реальной нагрузкой.

Что на самом деле влияет на скорость и качество LLM

1) GPU и видеопамять (VRAM)

Для LLM решает не только «мощность чипа», а объём VRAM.

Для моделей 7–13B достаточно 24–48 ГБ VRAM на один ускоритель.
Для 70B и длинных контекстов комфортнее 80–192 ГБ VRAM и связка из нескольких GPU.

Правило простое: чем больше одновременно пользователей и длиннее «окно контекста», тем больше VRAM нужно.

2) CPU и оперативная память (RAM)

GPU не должны простаивать. Чтобы кормить их данными без задержек:

CPU: не экономим — берём современные многопоточные Xeon/EPYC с запасом по частоте.
RAM: ориентир — от 256 ГБ для старта, 512 ГБ–1 ТБ для многопользовательских сценариев и дообучения.
Держим 20–30% запаса под пики и служебные буферы.

3) Хранилище

NVMe SSD под модели и кэш (скорость старта и подкачки).
HDD/SATA SSD под логи, датасеты, истории диалогов.
Типовой старт: 2–4×NVMe 3,84–7,68 ТБ в RAID10 + массовое хранилище по задаче.

4) Сеть

Если серверов несколько, сеть становится критична:

Для лёгкого инференса — 25–50 GbE.
Для распределённого инференса/дообучения — 100 GbE или InfiniBand (желательно RDMA/RoCE).

5) ПО и интеграция

Драйверы, CUDA/ROCm, фреймворки, рантаймы (vLLM, TensorRT-LLM, Triton, Ollama/KServe), мониторинг.

Важно: NUMA-настройки, пинning потоков, профили питания — мелочи, которые дают +10–30% производительности.

Три понятные конфигурации под разные задачи

1) Старт для внутренних ассистентов (чат-боты, RAG, 5–30 RPS)

2×RTX 4090 / RTX 6000 Ada (48 ГБ)
CPU: 32–48 потоков, RAM: 256–512 ГБ
Хранилище: 2×NVMe ≥ 3,84 ТБ (RAID1/10)
Где уместно: 7–13B модели, окна 4k–8k, десятки одновременных диалогов, RAG поверх ваших данных.

2) Уверенный середнячок для отдела/продукта (длинные контексты, сотни пользователей)

4×GPU класса 48–80 ГБ (RTX 6000 Ada / A100 80 ГБ)
CPU: 64–96 потоков, RAM: 512 ГБ–1 ТБ
Хранилище: 4×NVMe 3,84–7,68 ТБ (RAID10)
Где уместно: 13–34B, окно 8k–32k, до сотен RPS, периодические тонкие дообучения (LoRA).

3) «Без компромиссов» для крупных моделей и дообучения

8×GPU с HBM: H100 80 ГБ / MI300X 192 ГБ / H200
CPU: 96–128 потоков, RAM: 1–2 ТБ
Сеть: 100 GbE/IB, Хранилище: 4–8×NVMe + массив под датасеты
Где уместно: 34–70B+, длинные контексты, интенсивный RAG, SFT/LoRA + высоконагруженный инференс.

Не уверены, какая конфигурация нужна? Мы делаем расчёт под вашу модель, контекст, пользователей и желаемый RPS — и заранее прогоняем стенд под реальной нагрузкой.

Как понять, «хватит ли» VRAM — без формул и боли

Ответьте на 4 вопроса:

Какая модель? (размер в млрд параметров и формат весов: FP16/BF16/INT8/INT4)
Какой контекст? (4k, 8k, 32k и т.д.)
Сколько одновременных пользователей/запросов?
Есть ли дообучение или только инференс?

Если у вас 7–13B, окно 4k–8k и до 20 одновременных диалогов — ориентируйтесь на 48 ГБ VRAM.

Если вы хотите длинные контексты 16–32k или 70B-класс, смотрите в сторону 80–192 ГБ VRAM и multi-GPU.

Частые ошибки (и как их избежать)

Экономия на CPU/RAM → GPU простаивают, растут задержки.

Решение: баланс: современный CPU, +20–30% RAM-запас.
Один быстрый SSD «на всё» → узкое место на I/O.

Решение: разнос кэша, весов и логов по разным NVMe/массивах.
Неподготовленная сеть в кластере → низкий скейл.

Решение: 25–100 GbE/IB, RDMA, грамотная топология.
«Голый» сервер без настройки ПО → «оно работает, но медленно».

Решение: стеки CUDA/ROCm, vLLM/TensorRT-LLM, NUMA, профили питания, мониторинг.

Что мы делаем как интегратор

Подбираем конфигурацию под вашу модель, окно контекста и целевые RPS.
Собираем и настраиваем: прошивки, драйверы, фреймворки, рантаймы.
Тестируем под реальной нагрузкой на ваших данных до установки.
Интегрируем в существующую инфраструктуру (стойки, сеть, CI/CD, мониторинг).
Обеспечиваем поддержку и быструю замену без бюрократии.

Хочется конкретики под ваш кейс?

Напишите, какую модель планируете, сколько пользователей и какой контекст нужен. Мы бесплатно подготовим 2–3 варианта: с бюджетом, ожидаемой производительностью и планом масштабирования.

MDM Electronics — не просто «продаём GPU», мы разворачиваем ИИ-инфраструктуру под ключ.