2111 подписчиков

768 ГБ дешевой памяти Intel Optane DIMM для запуска LLM с 1 триллионом параметров на системе с одной видеокартой

23 мая23 мая

2 мин

Пользователь Reddit добился успеха, запустив LLM с 1 триллионом параметров на рабочей станции, используя модули Optane PMem DIMM в качестве оперативной памяти, что вызвало ажиотаж в сообществе. — tomshardware.com Пользователь Reddit произвел фурор, заставив рабочую станцию с модулями Optane PMem DIMM, используемыми в качестве оперативной памяти, запустить большую языковую модель (LLM) с 1 триллионом параметров. APFrisco подробно изложил в мини-руководстве на сабреддите Local LLaMA, как им удалось приобрести подержанные модули постоянной памяти Intel Optane по относительно невысокой цене, чтобы «запустить модель с 1 триллионом параметров (в данном случае Kimi K2.5) локально со скоростью ~4 токена в секунду» на своей рабочей станции Xeon. Ключевым моментом этого достижения стала закупка пользователем шести модулей Optane PMem (DCPMM). Этот снятый с производства тип памяти был разработан для заполнения ниши между DRAM и SSD. Хотя 768 ГБ памяти Optane (6x 128 ГБ) действительно обеспечивают

Пользователь Reddit произвел фурор, заставив рабочую станцию с модулями Optane PMem DIMM, используемыми в качестве оперативной памяти, запустить большую языковую модель (LLM) с 1 триллионом параметров. APFrisco подробно изложил в мини-руководстве на сабреддите Local LLaMA, как им удалось приобрести подержанные модули постоянной памяти Intel Optane по относительно невысокой цене, чтобы «запустить модель с 1 триллионом параметров (в данном случае Kimi K2.5) локально со скоростью ~4 токена в секунду» на своей рабочей станции Xeon. Ключевым моментом этого достижения стала закупка пользователем шести модулей Optane PMem (DCPMM). Этот снятый с производства тип памяти был разработан для заполнения ниши между DRAM и SSD. Хотя 768 ГБ памяти Optane (6x 128 ГБ) действительно обеспечивают значительно меньшую задержку по сравнению с лучшими NVMe SSD, она все же в два-три раза медленнее, чем DRAM. Тем не менее, эти характеристики весьма привлекательны для фреймворков инференса LLM, а цена на вторичном рынке была «намного ниже, чем стоила бы эквивалентная емкость DRAM». Но, увы, Optane мертв, поэтому это экзотическое решение. Технические характеристики оборудования APFrisco были указаны следующим образом:
Сборка была настроена с использованием Optane в режиме памяти, а Samsung DDR4 — в качестве кэша.
Программная часть опиралась на упомянутую архитектуру mixture-of-experts модели Kimi K2.5. APFrisco использовал гибридную методологию инференса на GPU/CPU с llama.cpp. Кроме того, для оптимизации обработки маршрутизирующие компоненты были «втиснуты» в 12 ГБ GPU с помощью флага ‘override-tensor’ в llama.cpp.
Пользователь Reddit весьма гордится достигнутой производительностью около 4 токенов в секунду. «Учитывая тот факт, что это модель передового класса с триллионом параметров, работающая на столь ограниченном бюджете оборудования, я считаю это большим успехом», — пишет APFrisco. Далее он сетует на уход Intel с рынка продуктов Optane.
Если вас интересует обзор этой сборки и того, чего удалось достичь в плане локального инференса LLM, вы можете найти более подробную информацию о конфигурации в исходном посте. Кроме того, APFrisco активно участвует в комментариях, отвечая на вопросы. Он также, по всей видимости, извлекает пользу из рекомендаций о том, как добиться еще лучших результатов, учитывая заложенный фундамент.
Однако общая картина такова, что существует потребность в продукте памяти, заполняющем пропасть между DRAM и SSD, особенно для LLM. Многие ожидают, что этот пробел вскоре будет заполнен стандартом CXL (Compute Express Link), который обещает огромные пулы доступной, байт-адресуемой памяти для подобных рабочих нагрузок.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Mark Tyson

Оригинал статьи

IT (информационные технологии)

5,67 млн интересуются