На Reddit разошёлся пост: человек собрал 128 гигабайт видеопамяти на старых V100 за примерно 2000 долларов и назвал это лучшим бюджетным путём к большим моделям. Вопрос ко мне один: почему я такое не ставлю. Потому что я в этом разобрался лучше реддит юзера. Сейчас поясню: Сначала что здесь правда. Серый рынок списанных серверных карт существует: V100 брокеры придерживают и сливают порциями. Модуль на 32 гигабайта сейчас в районе 350-450 долларов, цена скачет. По размеру памяти-на-доллар это бьёт всё, что доступно на рынке. Под современные MoE-модели такая память ложится отлично. У такой модели параметров много, но на каждый токен включается лишь малая их часть: у DeepSeek V3 из 671 миллиарда работают только 37. Хранить надо всё, а считать каждый раз небольшой кусок. Отсюда результат, который поначалу выглядит странно: на паре V100 модель MoE на 120 миллиардов идёт под 75 токенов в секунду, а обычная плотная модель на 70 миллиардов на той же машине выдаёт всего 15. Меньше по размеру,