Найти в Дзене

Как выбрать сервер для локального запуска ChatGPT-подобных моделей — гайд без маркетинга

Локальные LLM (большие языковые модели) — это уже не «игрушка для гигантов». Все чаще компании запускают свои ассистенты и чат-боты на собственных серверах: так быстрее, безопаснее и в долгую — дешевле облака. Разбираемся простыми словами: какое железо нужно, чтобы всё работало стабильно с первого дня. В MDM Electronics мы ставим клиентам готовые решения «под ключ»: от подбора до инсталляции и тестов под реальной нагрузкой. Для LLM решает не только «мощность чипа», а объём VRAM. Правило простое: чем больше одновременно пользователей и длиннее «окно контекста», тем больше VRAM нужно. GPU не должны простаивать. Чтобы кормить их данными без задержек: Если серверов несколько, сеть становится критична: Драйверы, CUDA/ROCm, фреймворки, рантаймы (vLLM, TensorRT-LLM, Triton, Ollama/KServe), мониторинг.
Важно: NUMA-настройки, пинning потоков, профили питания — мелочи, которые дают +10–30% производительности. Не уверены, какая конфигурация нужна? Мы делаем расчёт под вашу модель, контекст, пол
Оглавление

Локальные LLM (большие языковые модели) — это уже не «игрушка для гигантов». Все чаще компании запускают свои ассистенты и чат-боты на собственных серверах: так быстрее, безопаснее и в долгую — дешевле облака. Разбираемся простыми словами: какое железо нужно, чтобы всё работало стабильно с первого дня.

Когда локальный запуск выгоднее облака

  • Конфиденциальность: персональные/финансовые/медицинские данные остаются внутри периметра.
  • Предсказуемость затрат: при постоянной нагрузке свой сервер окупается за 4–8 месяцев.
  • Контроль производительности: нет квот, «узких горлышек» и внезапных ограничений.
В MDM Electronics мы ставим клиентам готовые решения «под ключ»: от подбора до инсталляции и тестов под реальной нагрузкой.

Что на самом деле влияет на скорость и качество LLM

1) GPU и видеопамять (VRAM)

Для LLM решает не только «мощность чипа», а объём VRAM.

  • Для моделей 7–13B достаточно 24–48 ГБ VRAM на один ускоритель.
  • Для 70B и длинных контекстов комфортнее 80–192 ГБ VRAM и связка из нескольких GPU.

Правило простое: чем больше одновременно пользователей и длиннее «окно контекста», тем больше VRAM нужно.

2) CPU и оперативная память (RAM)

GPU не должны простаивать. Чтобы кормить их данными без задержек:

  • CPU: не экономим — берём современные многопоточные Xeon/EPYC с запасом по частоте.
  • RAM: ориентир — от 256 ГБ для старта, 512 ГБ–1 ТБ для многопользовательских сценариев и дообучения.
  • Держим 20–30% запаса под пики и служебные буферы.

3) Хранилище

  • NVMe SSD под модели и кэш (скорость старта и подкачки).
  • HDD/SATA SSD под логи, датасеты, истории диалогов.
  • Типовой старт: 2–4×NVMe 3,84–7,68 ТБ в RAID10 + массовое хранилище по задаче.

4) Сеть

Если серверов несколько, сеть становится критична:

  • Для лёгкого инференса — 25–50 GbE.
  • Для распределённого инференса/дообучения — 100 GbE или InfiniBand (желательно RDMA/RoCE).

5) ПО и интеграция

Драйверы, CUDA/ROCm, фреймворки, рантаймы (vLLM, TensorRT-LLM, Triton, Ollama/KServe), мониторинг.

Важно:
NUMA-настройки, пинning потоков, профили питания — мелочи, которые дают +10–30% производительности.

Три понятные конфигурации под разные задачи

1) Старт для внутренних ассистентов (чат-боты, RAG, 5–30 RPS)

  • 2×RTX 4090 / RTX 6000 Ada (48 ГБ)
  • CPU: 32–48 потоков, RAM: 256–512 ГБ
  • Хранилище: 2×NVMe ≥ 3,84 ТБ (RAID1/10)
  • Где уместно: 7–13B модели, окна 4k–8k, десятки одновременных диалогов, RAG поверх ваших данных.

2) Уверенный середнячок для отдела/продукта (длинные контексты, сотни пользователей)

  • 4×GPU класса 48–80 ГБ (RTX 6000 Ada / A100 80 ГБ)
  • CPU: 64–96 потоков, RAM: 512 ГБ–1 ТБ
  • Хранилище: 4×NVMe 3,84–7,68 ТБ (RAID10)
  • Где уместно: 13–34B, окно 8k–32k, до сотен RPS, периодические тонкие дообучения (LoRA).

3) «Без компромиссов» для крупных моделей и дообучения

  • 8×GPU с HBM: H100 80 ГБ / MI300X 192 ГБ / H200
  • CPU: 96–128 потоков, RAM: 1–2 ТБ
  • Сеть: 100 GbE/IB, Хранилище: 4–8×NVMe + массив под датасеты
  • Где уместно: 34–70B+, длинные контексты, интенсивный RAG, SFT/LoRA + высоконагруженный инференс.
Не уверены, какая конфигурация нужна? Мы делаем расчёт под вашу модель, контекст, пользователей и желаемый RPS — и заранее прогоняем стенд под реальной нагрузкой.

Как понять, «хватит ли» VRAM — без формул и боли

Ответьте на 4 вопроса:

  1. Какая модель? (размер в млрд параметров и формат весов: FP16/BF16/INT8/INT4)
  2. Какой контекст? (4k, 8k, 32k и т.д.)
  3. Сколько одновременных пользователей/запросов?
  4. Есть ли дообучение или только инференс?

Если у вас 7–13B, окно 4k–8k и до 20 одновременных диалогов — ориентируйтесь на 48 ГБ VRAM.

Если вы хотите
длинные контексты 16–32k или 70B-класс, смотрите в сторону 80–192 ГБ VRAM и multi-GPU.

Частые ошибки (и как их избежать)

  • Экономия на CPU/RAM → GPU простаивают, растут задержки.

    Решение: баланс: современный CPU, +20–30% RAM-запас.
  • Один быстрый SSD «на всё» → узкое место на I/O.

    Решение: разнос кэша, весов и логов по разным NVMe/массивах.
  • Неподготовленная сеть в кластере → низкий скейл.

    Решение: 25–100 GbE/IB, RDMA, грамотная топология.
  • «Голый» сервер без настройки ПО → «оно работает, но медленно».

    Решение: стеки CUDA/ROCm, vLLM/TensorRT-LLM, NUMA, профили питания, мониторинг.

Что мы делаем как интегратор

  • Подбираем конфигурацию под вашу модель, окно контекста и целевые RPS.
  • Собираем и настраиваем: прошивки, драйверы, фреймворки, рантаймы.
  • Тестируем под реальной нагрузкой на ваших данных до установки.
  • Интегрируем в существующую инфраструктуру (стойки, сеть, CI/CD, мониторинг).
  • Обеспечиваем поддержку и быструю замену без бюрократии.

Хочется конкретики под ваш кейс?

Напишите, какую модель планируете, сколько пользователей и какой контекст нужен. Мы бесплатно подготовим 2–3 варианта: с бюджетом, ожидаемой производительностью и планом масштабирования.

MDM Electronics — не просто «продаём GPU», мы разворачиваем ИИ-инфраструктуру под ключ.