211 подписчиков

⚡ NVIDIA DGX Spark — когда суперкомпьютер помещается под стол

14 октября 202514 окт 2025

3 мин

Пока мир обсуждает гигантские кластеры GB200 NVL72 и облачные фермы для LLM-инференса, NVIDIA решила сжать “датацентр в коробке”.

Новая рабочая станция DGX Spark — это не просто компактный сервер, а архитектурный манифест: доказательство, что локальный AI-инференс может быть не только тихим, но и серьёзным. DGX Spark построен на чипе GB10 Grace Blackwell Superchip, где 20 ядер CPU (10 Cortex-X925 + 10 Cortex-A725) и GPU объединены в одну когерентную память объёмом 128 ГБ LPDDR5x.

Это не просто “общая память” — это единое адресное пространство, где CPU и GPU работают без копирования данных между VRAM и ОЗУ. 🧠 Такое решение кардинально меняет логику инференса: Это не игровой GPU — это разработческая платформа с инженерной эстетикой: алюминиевый корпус с металлической пеной для охлаждения и питание по USB-C 240 Вт (!), чего не делает больше никто. LMSYS протестировали Spark на SGLang и Ollama, сравнив с RTX 6000 Blackwell и RTX 5090.

Результаты ожидаемо двоякие: ⚙️ Llama 3.1 8B (FP8, bat

Оглавление

💡 Архитектура: когда CPU и GPU становятся одним целым
🧮 Производительность и тесты
🧰 Локальный ИИ-стек из коробки

Пока мир обсуждает гигантские кластеры GB200 NVL72 и облачные фермы для LLM-инференса, NVIDIA решила сжать “датацентр в коробке”.
Новая рабочая станция DGX Spark — это не просто компактный сервер, а архитектурный манифест: доказательство, что локальный AI-инференс может быть не только тихим, но и серьёзным.

💡 Архитектура: когда CPU и GPU становятся одним целым

DGX Spark построен на чипе GB10 Grace Blackwell Superchip, где 20 ядер CPU (10 Cortex-X925 + 10 Cortex-A725) и GPU объединены в одну когерентную память объёмом 128 ГБ LPDDR5x.
Это не просто “общая память” — это единое адресное пространство, где CPU и GPU работают без копирования данных между VRAM и ОЗУ.

🧠 Такое решение кардинально меняет логику инференса:

🚀 Модели до 70B параметров (Llama 3.1, Gemma 3, DeepSeek-R1) загружаются напрямую без перегонов через шину PCIe;
🔄 Никаких bottleneck’ов от VRAM-трансферов, но при этом ограничение по пропускной способности LPDDR5x (~273 ГБ/с) остаётся главным “узким горлышком”;
🔗 Через два QSFP-порта по 200 Гбит/с можно объединить два DGX Spark в мини-кластер и обслуживать модели до 405 млрд параметров (FP4).

Это не игровой GPU — это разработческая платформа с инженерной эстетикой: алюминиевый корпус с металлической пеной для охлаждения и питание по USB-C 240 Вт (!), чего не делает больше никто.

🧮 Производительность и тесты

LMSYS протестировали Spark на SGLang и Ollama, сравнив с RTX 6000 Blackwell и RTX 5090.
Результаты ожидаемо двоякие:

⚙️ Llama 3.1 8B (FP8, batch 32) — 368 tps decode → отличная линейная масштабируемость и стабильность.
⚙️ GPT-OSS 20B (MXFP4) — 49.7 tps против 215 tps у RTX 6000 → примерно 4× медленнее, но при этом полностью локально и без облака.

🔬 Однако DGX Spark не про “гигатокены в секунду” — а про эксперименты и прототипирование.
Его сила — в спекулятивном декодировании (EAGLE3): когда маленькая “черновая” модель предсказывает несколько токенов вперёд, а большая подтверждает.
📈 Ускорение — до 2× по сравнению с обычным инференсом.

🧰 Локальный ИИ-стек из коробки

DGX Spark поставляется с предустановленным Docker, готовым к работе со SGLang и Ollama:

docker run --gpus all -p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
lmsysorg/sglang:spark \
python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct

Через OpenAI-совместимый API можно подключить Open WebUI или локальные клиенты — и получить свой ChatGPT прямо на рабочем столе.

🎨 А в связке с Zed (редактором с AI-интеграцией) и Ollama можно запустить GPT-OSS 20B как оффлайн-код-ассистент, полностью без облака.

🔋 Инженерия без компромиссов

Даже при 100 % нагрузке DGX Spark не троттлит: температура и шум стабильны, вентиляторы работают тихо — заслуга металлического пеноохлаждения и внешнего БП.
Для компактной станции это редкость: Apple Mac Studio и M4 Mini в тех же тестах теряли производительность из-за тепла.

🌍 Зачем это всё

DGX Spark — не конкурент RTX 6000. Это мост между датацентром и разработчиком.

💻 Прототипирование и A/B-тесты LLM локально;
🧪 Исследования в области coherent memory-архитектур;
🧠 Обучение студентов и ИИ-инженеров без аренды облака.

Можно сказать, что Spark делает с AI то, что Raspberry Pi сделал с IoT: переносит суперкомпьютерное мышление на рабочий стол.

💭 Мнение автора

DGX Spark — не просто устройство, а символ “демократизации ИИ-инференса”.
Он показывает, что локальные модели не должны быть игрушкой энтузиастов: при грамотной архитектуре и хорошей памяти даже рабочая станция способна обрабатывать Llama 70B.

Но для меня Spark — ещё и напоминание, что будущее ИИ не только в терафлопсах, но и в контроле.
Локальная среда значит приватность, предсказуемость и свободу эксперимента — то, чего так не хватает облачным сервисам.

DGX Spark делает то, что делает NVIDIA лучше всех: превращает инженерию в искусство.