Почему я не ставлю в сборки пастгеновые серверные карты

19 июня19 июн

3 мин

На Reddit разошёлся пост: человек собрал 128 гигабайт видеопамяти на старых V100 за примерно 2000 долларов и назвал это лучшим бюджетным путём к большим моделям. Вопрос ко мне один: почему я такое не ставлю. Потому что я в этом разобрался лучше реддит юзера. Сейчас поясню: Сначала что здесь правда. Серый рынок списанных серверных карт существует: V100 брокеры придерживают и сливают порциями. Модуль на 32 гигабайта сейчас в районе 350-450 долларов, цена скачет. По размеру памяти-на-доллар это бьёт всё, что доступно на рынке. Под современные MoE-модели такая память ложится отлично. У такой модели параметров много, но на каждый токен включается лишь малая их часть: у DeepSeek V3 из 671 миллиарда работают только 37. Хранить надо всё, а считать каждый раз небольшой кусок. Отсюда результат, который поначалу выглядит странно: на паре V100 модель MoE на 120 миллиардов идёт под 75 токенов в секунду, а обычная плотная модель на 70 миллиардов на той же машине выдаёт всего 15. Меньше по размеру,

На Reddit разошёлся пост: человек собрал 128 гигабайт видеопамяти на старых V100 за примерно 2000 долларов и назвал это лучшим бюджетным путём к большим моделям.

Вопрос ко мне один: почему я такое не ставлю. Потому что я в этом разобрался лучше реддит юзера. Сейчас поясню:

Сначала что здесь правда. Серый рынок списанных серверных карт существует: V100 брокеры придерживают и сливают порциями. Модуль на 32 гигабайта сейчас в районе 350-450 долларов, цена скачет. По размеру памяти-на-доллар это бьёт всё, что доступно на рынке.

Под современные MoE-модели такая память ложится отлично. У такой модели параметров много, но на каждый токен включается лишь малая их часть: у DeepSeek V3 из 671 миллиарда работают только 37. Хранить надо всё, а считать каждый раз небольшой кусок. Отсюда результат, который поначалу выглядит странно: на паре V100 модель MoE на 120 миллиардов идёт под 75 токенов в секунду, а обычная плотная модель на 70 миллиардов на той же машине выдаёт всего 15. Меньше по размеру, а в пять раз медленнее, потому что плотную модель прогоняешь целиком, а у MoE работает только активная часть. Память тут и нужна, чтобы крупную MoE было куда положить.

Теперь почему это все еще не рабочая станция.

Первое. «Система видит это как одну видеокарту, единый пул, нулевая латентность». Нет. nvidia-smi показывает четыре отдельные карты. NVLink даёт быстрый канал под tensor parallelism: модель режется на части, нужен софт, который это умеет. Поверишь в единый пул и загрузишь модель одним куском, получишь ошибку, а не магию.

Второе. Две платы это не двойной пул, а два изолированных острова. Внутри платы карты идут по NVLink, между платами по PCIe, в десятки раз медленнее. Стена там, где кончается плата. И NVLink есть не на любой: дешёвый носитель даёт слоты и питание без связи между картами. Хвастаются пулом на 128 гигабайт, первый вопрос: какая плата.

Третье, и оно решает. Архитектура мёртвая. Volta, 2017 год, compute capability 7.0. Карта не умеет bfloat16, а свежие модели идут в нём: конвертируешь в float16, иногда с поломкой. Нет flash attention, на котором держится почти весь современный инференс. Основную поддержку Volta Nvidia свернула осенью 2025.

И это не «медленнее с годами». Это половина нового не стартует уже сейчас ». Не тормозит. Не запускается.

Про софт отдельно. В сети пишут, что PyTorch выше 2.7 на V100 не встанет. Неточно: с версии 2.11 дефолтная установка перестала класть Volta в свежие CUDA-сборки, а стоковый vLLM на Volta вообще не стартует, нужен сторонний форк или сборка из исходников. Сигнал, что вышел за «поставил и работает».

AMD-путь через MI250X для самосбора ещё хуже. Питание проприетарное на 54 вольта, обычный PCIe-кабель плату сожжёт. Блоков и breakout-плат под 54 вольта в рознице нет, стек ROCm сырее CUDA. Без оригинального сервера это кирпич.

Дальше бытовое. Больше киловатта на пике в один кластер карт. Тихо ты такое не соберешь, это машина для серверной или подвала.

Сухой остаток. Это рабочий путь для энтузиаста с паяльником и временем на возню. Скорее чтоб показать что завелось чем советовать его повторить. Дешёвая видеопамять, которая не тянет завтрашние модели, это "скупой платит дважды", а не легкий путь к самой умной покупке.

Я собираю станции, которые работают сегодня и через два года без компиляции из исходников и без танцев с бубном вокруг серверного бп на 48в. Это другой продукт. Поэтому на ту ссылку отвечаю одинаково: да, существует, и вот почему это не то, что нужно, если хочешь включить и работать.

https://www.reddit.com/r/LocalLLaMA/comments/1rql2f3/4_32_gb_sxm_v100s_nvlinked_on_a_board_best_budget/