768 ГБ Intel Optane Persistent Memory в формате DIMM помогли энтузиасту запустить локально LLM на 1 трлн параметров на рабочей станции с одной GeForce RTX 3060 12 ГБ. По его замерам, модель Kimi K2.5 выдавала около 4 токенов в секунду. История разошлась в комьюнити локального инференса после поста пользователя APFrisco. Он собрал систему на Xeon и поставил Optane PMem как «память между DRAM и SSD», купив модули на вторичном рынке по цене ниже, чем стоил бы сопоставимый объём обычной ECC DDR4. Ключевой трюк в том, что Optane PMem DIMM можно включить в режиме Memory Mode. Тогда модули Optane становятся основной памятью, а обычная DDR4 работает как кэш. Для задач LLM это помогает уместить огромные веса модели в адресуемую память, не упираясь в объём видеопамяти. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Intel Optane Persistent Memory задумывали как компромисс между DRAM и SSD: задержки ниже, чем у NVMe, но скорость всё равно заметно хуже оперативки. В описании с
768 ГБ Intel Optane помогли запустить LLM на 1 трлн параметров
23 мая23 мая
2 мин