Тест производительности DeepSeek R1. RTX 5090 vs RTX 4090 - результаты в реальных задачах

Мы в HOSTKEY протестировали модели DeepSeek R1 на нескольких конфигурациях GPU, чтобы посмотреть, как каждая из них ведет себя под реальной нагрузкой. Результаты четко показывают разные уровни производительности, которые важно учитывать при выборе инфраструктуры для развертывания LLM.

Результаты RTX 5090

🔹 Модель 14B: 126,68 токена/с, поддерживает контекстное окно 76K

🔹 Модель 32B: 65,38 токена/с, контекст до 32K

🔹 Модель 70B: требуется две RTX 5090, скорость 33,35 токена/с при поддержке контекста до 28K

Результаты RTX 4090

🔹 Модель 14B: 83,13 токена/с

🔹 Модель 32B: 40,94 токена/с

Масштабирование

🔹 Модель 14B не масштабируется на две GPU ни на RTX 5090, ни на RTX 4090.

🔹 Модель 32B масштабируется на паре RTX 4090, но не масштабируется на паре RTX 5090.

Главные выводы

🔹 Скорость генерации токенов напрямую влияет на пользовательский опыт и операционные затраты в проде.

🔹 Снижение скорости инференса влечет за собой два негативных эффекта: увеличение времени отклика для конечных пользователей и рост затрат на GPU-вычисления в пересчете на один запрос.

🔹 Наши GPU-серверы дают этим моделям необходимое “железо” без головной боли с поиском доступных облачных GPU.

Предустановленные LLM - сразу готовы к работе

HOSTKEY предлагает предустановленные и готовые к запуску большие языковые модели, оптимизированные по производительности и совместимости:

— DeepSeek-R1-14B

— DeepSeek-R1-70B

— Gemma-3-27B-it

— Llama-3.3-70B

— Phi-4-14B

— Qwen3-32B

— Qwen3-Coder

— GPT-OSS-20B

— GPT-OSS-120B

👉 Подробнее о моделях: hostkey.ru/...lms

Вы можете выбрать наиболее подходящую модель при конфигурации своего GPU-сервера на базе NVIDIA RTX 5090 / 4090, RTX Pro 6000 (96 ГБ) или Tesla H100 / A100 (80 ГБ).

👉 Посмотреть доступные GPU-конфигурации: hostkey.ru/...ers

В любой момент вы можете переустановить сервер и сменить LLM прямо из панели управления.

Собственная модель дает полный контроль над приватностью данных, кастомизацией и тонкой настройкой производительности. В отличие от облачных AI-сервисов вроде ChatGPT или Gemini,модель функционирует исключительно на вашем оборудовании - данные остаются внутри корпоративного контура, а процессы обучения, оптимизации и интеграции полностью управляются вами.

1 минута

19 ноября 2025