4082 подписчика

Серверная оперативная память: гайд для тех, кто собирает или апгрейдит сервер

25 мая25 мая

11 мин

Серверная оперативная память — это не «такая же RAM, только дороже». Здесь другой класс модулей (ECC, RDIMM, LRDIMM), другие правила установки (ранги, каналы, QVL-листы), другая логика выбора объёма. Ошибка в одном параметре приводит к тому, что сервер не запускается, теряет производительность или работает нестабильно под нагрузкой. В этом гайде разбираем выбор серверной памяти пошагово — без воды и без рекламы, на опыте десятков проектов нашей лаборатории. Серверная нагрузка отличается от десктопной по трём ключевым параметрам: непрерывность работы, объём обрабатываемых данных и цена ошибки. Сервер 1С на 100 пользователей работает 24/7, держит несколько гигабайт кешей баз данных в памяти, и одна повреждённая ячейка ОЗУ может привести к коррупции базы или внезапной перезагрузке в середине операционного дня. Десктопу такие сценарии не страшны — он перезагружается, и пользователь повторяет действие. Из этих требований выросли три класса серверной памяти: ECC (Error-Correcting Code) добав

Оглавление

Зачем серверной памяти своя архитектура
ECC vs Non-ECC: когда без коррекции ошибок нельзя
RDIMM, LRDIMM, UDIMM — какие модули принимает ваша платформа

В этом гайде разбираем выбор серверной памяти пошагово — без воды и без рекламы, на опыте десятков проектов нашей лаборатории.

Зачем серверной памяти своя архитектура

Серверная нагрузка отличается от десктопной по трём ключевым параметрам: непрерывность работы, объём обрабатываемых данных и цена ошибки.

Сервер 1С на 100 пользователей работает 24/7, держит несколько гигабайт кешей баз данных в памяти, и одна повреждённая ячейка ОЗУ может привести к коррупции базы или внезапной перезагрузке в середине операционного дня. Десктопу такие сценарии не страшны — он перезагружается, и пользователь повторяет действие.

Из этих требований выросли три класса серверной памяти:

ECC (Error-Correcting Code) добавляет дополнительный 9-й чип на каждые 8 чипов данных и хранит контрольную сумму. Это позволяет обнаруживать двухбитовые и исправлять однобитовые ошибки на лету.

RDIMM (Registered DIMM) добавляет регистровый буфер между контроллером памяти и микросхемами. Это снижает электрическую нагрузку на контроллер и позволяет ставить больше модулей в одном канале.

LRDIMM (Load-Reduced DIMM) идёт ещё дальше — буферизует не только адресные, но и данные-линии. Нужно для очень больших конфигураций — 256+ ГБ на сокет.

Десктопная UDIMM-память физически не помещается в большинство серверных платформ. Серверные слоты ждут регистровый сигнал, и без него модуль либо не определяется, либо вызывает падение POST. Это не вопрос «дороже-дешевле», это вопрос совместимости платформы.

ECC vs Non-ECC: когда без коррекции ошибок нельзя

Однобитовая ошибка в оперативной памяти — это редкое событие на отдельно взятом модуле, но в масштабе серверного парка она происходит регулярно. По данным Google (доклад «DRAM Errors in the Wild», обновлённый в 2020 году), 25–40% серверов в дата-центрах испытывают как минимум одну исправимую ECC-ошибку в год.

ECC-память использует схему SECDED (Single Error Correction, Double Error Detection). На каждые 64 бита данных пишется 8 контрольных битов. Если в считанном слове изменился один бит — память пересчитывает контрольную сумму, обнаруживает ошибку и исправляет её прозрачно для приложения.

В DDR5 встроена on-die ECC — каждая микросхема памяти проверяет внутренние ошибки самостоятельно. Это снижает количество ошибок на стороне CPU, но не отменяет необходимость серверной ECC. On-die ECC покрывает только ошибки внутри чипа, а классическая серверная ECC дополнительно ловит ошибки на пути от модуля до контроллера.

Когда ECC обязателен: базы данных любого уровня (1С, PostgreSQL, MySQL, MS SQL, Oracle), виртуализация (VMware vSphere, Proxmox, Hyper-V), файловые серверы (особенно с ZFS), backup-серверы, любые production-нагрузки с непрерывной работой.

Когда без ECC можно обойтись: dev/test стенды, обучающие сервера, ситуации где простой и потеря данных некритичны. На практике в корпоративном сегменте таких сценариев почти нет — экономия ~15% на памяти не окупается рисками.

RDIMM, LRDIMM, UDIMM — какие модули принимает ваша платформа

Четыре класса модулей решают одну задачу — передать данные от микросхем памяти к контроллеру процессора. Делают это по-разному. Ошибка в этом параметре — самая частая причина того, что новый модуль не запускается.

RDIMM (Registered DIMM). Стандарт для подавляющего большинства серверов — Dell PowerEdge, HPE ProLiant, Lenovo ThinkSystem, Supermicro X11–X14 всех поколений. На модуле установлен register chip, который перехватывает адресные сигналы от контроллера и раздаёт их по микросхемам. Цена — задержка в один такт.

LRDIMM (Load Reduced DIMM). Между микросхемами памяти и шиной данных ставится data buffer, который полностью развязывает чипы памяти от внешней шины. Это позволяет ставить модули очень большой плотности — 128, 256, 512 ГБ на модуль — и доходить до 4–8 ТБ ОЗУ на один сокет.

LRDIMM нужен, когда требуется максимальный объём памяти на сокет: виртуализация с десятками тяжёлых ВМ, in-memory базы данных типа SAP HANA, аналитика real-time. Для типичных серверов 1С, файловых, backup — LRDIMM избыточен.

UDIMM (Unbuffered DIMM). Без регистрового буфера. Это десктопный класс модулей. UDIMM ECC — компромиссная серверная память для очень малых серверов начального уровня. В корпоративных серверах UDIMM почти не встречается.

SO-DIMM. Маленький форм-фактор для ноутбуков, mini-ПК и иногда серверов Edge-класса. В обычных rack-серверах не используется.

Как узнать класс модулей для вашего сервера: откройте datasheet на конкретную модель (Dell PowerEdge R750 → раздел Memory). Не доверяйте общим формулировкам «DDR4» в маркетинге — ищите слово RDIMM / LRDIMM / UDIMM с указанием частот и объёмов.

DDR4 или DDR5 — что выбрать для серверной платформы сейчас

Серверный рынок сейчас разделён почти пополам: новые проекты — DDR5, легаси и апгрейд существующих платформ — DDR4. Разница не сводится к «DDR5 быстрее». Поколения физически и электрически несовместимы (разная разводка пинов, разное напряжение — 1,2 В против 1,1 В).

Какие CPU принимают DDR4:

· Intel Xeon Scalable 1–3 gen (Skylake-SP, Cascade Lake, Ice Lake) — до 8 каналов DDR4-3200.

· AMD EPYC 7001 / 7002 / 7003 (Naples, Rome, Milan) — до 8 каналов DDR4-3200, до 4 ТБ ОЗУ.

Какие CPU принимают DDR5:

· Intel Xeon Scalable 4 gen и 5 gen (Sapphire Rapids, Emerald Rapids) — 8 каналов DDR5-4800/5600.

· AMD EPYC 9004 (Genoa) и 9005 (Turin) — 12 каналов DDR5-4800/5200/6000, до 6 ТБ ОЗУ.

Новый проект (закладка инфраструктуры на 5+ лет): DDR5. У AMD EPYC 9004+ архитектура с 12 каналами даёт прирост пропускной способности почти в 2 раза по сравнению с DDR4. Для баз данных, аналитики, виртуализации это заметно — приложения, упирающиеся в bandwidth памяти, ускоряются на 30–60%.

Апгрейд существующей DDR4-платформы: остаётесь на DDR4. Никаких компромиссов — DDR4-3200 в RDIMM остаётся качественной серверной памятью, поддержка вендорами гарантирована до конца десятилетия.

Смешанные конфигурации: внутри одного сервера смешивать DDR4 и DDR5 нельзя. Физическая несовместимость.

Сколько памяти нужно — расчёт по сценариям

Самый частый вопрос: «сколько ГБ взять». Универсального ответа нет — расчёт зависит от типа нагрузки. Ниже — рабочие ориентиры из наших проектов.

Серверы 1С Предприятие 8.

На пользователя 1С Бухгалтерии — 200–400 МБ ОЗУ серверной части. Для УПП, ERP, КА — 500–800 МБ.

· До 30 пользователей 1С Бухгалтерия: 32–64 ГБ (2×32 или 4×16 ГБ).

· 30–100 пользователей УПП/ERP: 128–256 ГБ (4×32 или 4×64 ГБ).

· Более 100 пользователей с тяжёлой аналитикой: 256–512 ГБ + отдельный сервер под СУБД.

СУБД (PostgreSQL, MS SQL, Oracle, MySQL).

Правило большого пальца: shared_buffers PostgreSQL = 25% от RAM, SQL Server max memory = 80% от RAM.

· Малая БД до 50 ГБ: 64–128 ГБ RAM.

· Средняя БД 100–500 ГБ: 256–512 ГБ RAM.

· Большая БД 1+ ТБ: 512 ГБ – 1 ТБ RAM, желательно LRDIMM для максимальной плотности.

Виртуализация (VMware vSphere, Hyper-V, Proxmox).

Считаем по правилу: сумма зарезервированной памяти всех ВМ × 1,2. Запас на overcommit гипервизора.

· Базовая (8–12 средних ВМ по 8 ГБ): 128–192 ГБ.

· Плотная (20–30 ВМ): 256–512 ГБ.

· Hyperconverged (Nutanix, VxRail): от 512 ГБ на узел.

Backup-серверы (Veeam, Acronis).

Veeam рекомендует 4 ГБ RAM на каждый concurrent task + 4 ГБ для ОС.

· Малый офис, 10–20 ВМ: 16–32 ГБ.

· Средняя компания, 50+ ВМ: 64 ГБ.

· Корпоративная инсталляция Veeam: 128 ГБ.

Файловые серверы.

Память используется как кеш файловой системы. ZFS особенно жаден: 1 ГБ ОЗУ на 1 ТБ полезного объёма плюс ещё 5 ГБ если включена дедупликация.

Ранги, каналы, QVL — три параметра, которые ломают новичков

Ранги памяти. Ранг — это группа микросхем памяти, работающая синхронно как одна логическая единица 64-bit (72-bit с ECC). Обозначается как Rx в маркировке: 2Rx8 — модуль с двумя рангами, каждый из 8 микросхем по 8 бит.

Серверные платформы имеют ограничение по числу рангов на канал — обычно 4 или 8. Если поставить четыре 4-ранговых модуля в один канал — выйдет 16 рангов, что превышает лимит и автоматически снижает частоту памяти. Это типичная причина того, что сервер с 4×64 ГБ работает на 2666 МГц вместо штатных 3200.

Для серверов 1С, БД, виртуализации оптимальны 2-ранговые модули (2Rx4 для RDIMM или 2Rx8).

Каналы памяти. Сервер с 8-канальной архитектурой (Intel Xeon Scalable 1–3 gen, AMD EPYC до 9004) даёт максимальную пропускную способность только при заполнении всех 8 каналов. Если поставить 2 модуля из 16 слотов — память будет работать в 2-канальном режиме, и пропускная способность упадёт в 4 раза.

Правило: memory population должна быть симметричной. Лучше 8 модулей по 16 ГБ, чем 4 по 32 ГБ. Конфигурация 16×16 = 256 ГБ часто выигрывает у 4×64 = 256 ГБ на одних и тех же задачах.

QVL (Qualified Vendor List). Список конкретных модулей памяти, протестированных производителем сервера. Каждая модель сервера имеет свой QVL.

· Dell PowerEdge: Compatibility Matrix на сайте Dell + tools Dell Memory Selector.

· HPE ProLiant: в QuickSpecs документе раздел Memory Options с проверенными part numbers HPE Smart Memory.

· Lenovo ThinkSystem: через сайт Lenovo ServerProven (serverproven.lenovo.com).

· Supermicro: Tested Memory List на странице каждой материнской платы.

Что значит «не из QVL»: модуль может работать, но вендор не гарантирует стабильность, не возьмёт сервер на гарантийный ремонт по причине памяти, и техподдержка не будет помогать. Для production это серьёзный риск.

QC-Lab ANDPRO — как мы тестируем серверную память

Перед отгрузкой серверной памяти со склада ANDPRO модули проходят аппаратное тестирование в нашей лаборатории QC-Lab. Это не маркетинг — это техническая необходимость, которая снижает количество гарантийных возвратов.

Каждая партия проходит четыре уровня проверки:

1. Визуальный контроль и сверка part number с декларацией производителя.

2. BIOS POST в эталонной платформе (Dell PowerEdge / HPE ProLiant / Lenovo ThinkSystem / Supermicro).

3. Memtest86 на 4–8 проходов для выявления битых ячеек и ошибок ECC под нагрузкой.

4. Стресс-тест под рабочей нагрузкой — Linpack, STREAM, SPEC CPU2017 — 30 минут, фиксация температур и WHEA-событий.

Пять самых частых ошибок клиентов, с которыми они приходят к нам:

5. Смешивание рангов в канале. Клиент докупил одну планку «такую же» — но другого ранга. Сервер снижает частоту всей памяти.

6. Установка UDIMM в платформу под RDIMM. Сервер не стартует или показывает половину памяти.

7. Использование старой версии BIOS. Новый DDR5-модуль не поддерживается, требуется обновление BIOS перед установкой.

8. Не-QVL модуль. Стартует, работает, но падает раз в 2–3 недели под пиковой нагрузкой. Долгая диагностика.

9. Несимметричное заполнение каналов. 4 модуля из 16 слотов → пропускная способность в 4 раза ниже расчётной.

Чек-лист из 20 пунктов перед заказом

Что нужно знать о вашей платформе и текущей конфигурации, чтобы не ошибиться:

Платформа:

10. Точная модель сервера (Dell PowerEdge R750 / HPE ProLiant DL380 Gen11 и т.д.).

11. Год выпуска платформы (DDR4 или DDR5).

12. Поколение CPU (Intel Xeon Scalable 1–5 gen, AMD EPYC 7001–9005).

13. Число сокетов (1S или 2S).

14. Текущая версия BIOS.

Текущая память:

15. Part number установленных модулей.

16. Объём каждого модуля.

17. Поколение DDR (DDR4 или DDR5).

18. Класс модуля (RDIMM / LRDIMM / UDIMM).

19. Ранги (1Rx4 / 2Rx4 / 2Rx8 / 4Rx8).

20. Частота (2400 / 2666 / 2933 / 3200 / 4800 / 5600 МГц).

21. Сколько слотов памяти всего и сколько занято.

Цель апгрейда:

22. Какие приложения работают на сервере (1С, БД, виртуализация, backup, файловые).

23. Сколько пользователей или ВМ обслуживает.

24. Целевой объём памяти после апгрейда.

25. Докупаете совместимо с имеющимися модулями или меняете весь комплект.

Окружение:

26. Production / test / dev — критичность простоя.

27. Требования к гарантии (стандартная вендорская, расширенная).

28. Срок поставки (если нужны Dell / HPE Smart Memory под заказ — 2–6 недель).

29. Бюджет на апгрейд.

Эти 20 пунктов — то, что мы спрашиваем у клиентов при подборе серверной памяти. Чем точнее данные, тем точнее коммерческое предложение и меньше итераций.

Частые вопросы

Можно ли смешивать модули разных производителей в одном сервере?

Технически иногда работает, на практике для production категорически не рекомендуем. Сервер может снизить частоту всех модулей до минимально поддерживаемой, или начать давать спорадические ECC-ошибки. Если докупаете память — берите тот же part number, что уже стоит, или замените весь комплект.

Что лучше: 8 модулей по 16 ГБ или 4 по 32 ГБ при одинаковом объёме?

На большинстве серверов с 8-канальной архитектурой 8×16 ГБ выигрывает по пропускной способности — все каналы заполнены. 4×32 ГБ оставляет 4 канала пустыми, и memory bandwidth падает примерно в 2 раза.

Имеет ли смысл переходить с DDR4 на DDR5 сейчас?

Если у вас рабочая DDR4-платформа — нет, продолжайте использовать DDR4 пока сервер не доживёт до конца жизни. Если запускаете новый проект — выбирайте DDR5: горизонт поддержки длиннее, пропускная способность выше.

Что делать если модуль не в QVL вендора сервера?

Для production — не использовать. Для test/dev/lab — можно, но с пониманием рисков. Если вендор не подтверждает совместимость и сервер начнёт глючить — техподдержка откажется помогать.

Сколько памяти держать в запасе на случай отказа?

Для критичных production-серверов — 1 модуль из комплекта (3% объёма). Если упал один из 8 модулей по 32 ГБ — у вас остаётся 224 ГБ из 256, сервер продолжает работать, есть время на замену.

Где взять полную версию и подобрать память под свою платформу

Полная версия этого гайда — на сайте ANDPRO: разбор всех типов модулей, расширенный FAQ, схемы заполнения слотов, опыт лаборатории по конкретным платформам Dell / HPE / Lenovo / Supermicro.

Читать полную статью — andpro.ru/blog/memory/kak-vybrat-servernuyu-operativnuyu-pamyat-poshagovyy-gayd

Если нужно подобрать память под конкретный сервер с проверкой по QVL — пришлите модель сервера и текущую конфигурацию на info@andpro.ru или через форму на сайте, мы проверим в QC-Lab и подготовим коммерческое предложение.

PC и комплектующие

672 интересуются