768 ГБ Intel Optane помогли запустить LLM на 1 трлн параметров

23 мая23 мая

2 мин

768 ГБ Intel Optane Persistent Memory в формате DIMM помогли энтузиасту запустить локально LLM на 1 трлн параметров на рабочей станции с одной GeForce RTX 3060 12 ГБ. По его замерам, модель Kimi K2.5 выдавала около 4 токенов в секунду. История разошлась в комьюнити локального инференса после поста пользователя APFrisco. Он собрал систему на Xeon и поставил Optane PMem как «память между DRAM и SSD», купив модули на вторичном рынке по цене ниже, чем стоил бы сопоставимый объём обычной ECC DDR4. Ключевой трюк в том, что Optane PMem DIMM можно включить в режиме Memory Mode. Тогда модули Optane становятся основной памятью, а обычная DDR4 работает как кэш. Для задач LLM это помогает уместить огромные веса модели в адресуемую память, не упираясь в объём видеопамяти. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Intel Optane Persistent Memory задумывали как компромисс между DRAM и SSD: задержки ниже, чем у NVMe, но скорость всё равно заметно хуже оперативки. В описании с

Оглавление

Какое железо использовали для Kimi K2.5
Почему Optane тут сработал и почему это всё равно «экзотика»
Как добились 4 токенов в секунду на одном GPU

768 ГБ Intel Optane Persistent Memory в формате DIMM помогли энтузиасту запустить локально LLM на 1 трлн параметров на рабочей станции с одной GeForce RTX 3060 12 ГБ. По его замерам, модель Kimi K2.5 выдавала около 4 токенов в секунду.

История разошлась в комьюнити локального инференса после поста пользователя APFrisco. Он собрал систему на Xeon и поставил Optane PMem как «память между DRAM и SSD», купив модули на вторичном рынке по цене ниже, чем стоил бы сопоставимый объём обычной ECC DDR4.

Какое железо использовали для Kimi K2.5

Ключевой трюк в том, что Optane PMem DIMM можно включить в режиме Memory Mode. Тогда модули Optane становятся основной памятью, а обычная DDR4 работает как кэш. Для задач LLM это помогает уместить огромные веса модели в адресуемую память, не упираясь в объём видеопамяти.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

CPU: Intel Xeon Gold 6246
Материнская плата: Tyan S5630GMRE-CGN
GPU: Asus Dual GeForce RTX 3060 OC 12GB
DRAM: 6x 32GB Samsung DDR4-2666 ECC
Optane: 6x 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS (итого 768 ГБ)
SSD: Western Digital WD SN850X 2TB NVMe
БП: ASRock Steel Legend SL-850G 850W 80 PLUS Gold (Cybenetics Platinum)
Корпус: Silverstone SST-GD08B

Почему Optane тут сработал и почему это всё равно «экзотика»

Intel Optane Persistent Memory задумывали как компромисс между DRAM и SSD: задержки ниже, чем у NVMe, но скорость всё равно заметно хуже оперативки. В описании сборки APFrisco подчёркивает, что Optane в таких сценариях остаётся в 2-3 раза медленнее DRAM, но для инференса LLM это часто лучше, чем выгружать данные на SSD.

При этом решение нельзя назвать массовым. Intel уже свернула Optane, так что сегодня это история про вторичный рынок и совместимые платформы на Xeon.

Как добились 4 токенов в секунду на одном GPU

Софт в этой сборке опирался на llama.cpp и гибридный CPU/GPU инференс. Сам Kimi K2.5 использует архитектуру mixture-of-experts, что помогает распределять вычисления и память не так прямолинейно, как у «плотных» моделей.

Чтобы уложиться в 12 ГБ видеопамяти RTX 3060, APFrisco использовал флаг llama.cpp override-tensor. С его помощью он «впихнул» на GPU роутинг-компоненты, а остальное оставил на CPU и системной памяти. Результат он описал так: «Given the fact that this is a trillion-parameter frontier-class model running on such a limited hardware budget, I would consider it to be a great success».

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

768 ГБ Intel Optane помогли запустить LLM на 1 трлн параметров ⚡️