Пока мир обсуждает гигантские кластеры GB200 NVL72 и облачные фермы для LLM-инференса, NVIDIA решила сжать “датацентр в коробке”.
Новая рабочая станция DGX Spark — это не просто компактный сервер, а архитектурный манифест: доказательство, что локальный AI-инференс может быть не только тихим, но и серьёзным. DGX Spark построен на чипе GB10 Grace Blackwell Superchip, где 20 ядер CPU (10 Cortex-X925 + 10 Cortex-A725) и GPU объединены в одну когерентную память объёмом 128 ГБ LPDDR5x.
Это не просто “общая память” — это единое адресное пространство, где CPU и GPU работают без копирования данных между VRAM и ОЗУ. 🧠 Такое решение кардинально меняет логику инференса: Это не игровой GPU — это разработческая платформа с инженерной эстетикой: алюминиевый корпус с металлической пеной для охлаждения и питание по USB-C 240 Вт (!), чего не делает больше никто. LMSYS протестировали Spark на SGLang и Ollama, сравнив с RTX 6000 Blackwell и RTX 5090.
Результаты ожидаемо двоякие: ⚙️ Llama 3.1 8B (FP8, bat