Найти тему

Обслуживание сервера HPE Proliant DL360 Gen9

Один из серверов HPE Proliant DL360 Gen9 при перезагрузке по питанию начал сыпать странными ошибками в лог.

Uncorrectable Machine Check Exception (Board 0, Processor 1, APIC ID 0x00000000, Bank 0x00000012, Status 0xBE200000'000C110A, Address 0x00000000'93000000, Misc 0x80FC3816'00402086)

Ошибка только на первом процессоре, причём не всегда. Дальше сервер загружается и даже работает. Но неприятно.

Ясно что проблема на стыке CPU1 - материнская плата - память. Действовать в этом случае нужно по простому плану.

  1. Разобрать, почистить, собрать. Т.е. провести обслуживание сервера.
  2. Если ошибка повторится, поменять процессоры местами.
  3. Если ошибка повторится на CPU2, то проблема в процессоре.
  4. Если ошибка повторится на CPU1, то поменять между процессорами память.
  5. Если ошибка повторится на CPU2, то искать сбойную память.
  6. Если ошибка повторится на CPU1, то проблема в материнской плате.

Начнём с первых двух пунктов, их можно совместить. Выполним обслуживание сервера и поменяем процессоры местами.

Выключаем сервер, снимаем кроссировки, отключаем питание, снимаем крышку, откручиваем радиаторы. Осматриваем процессор, смотрим как нанесена термопаста.

-2

Снимаем термопасту. Я пользуюсь салфетками и спиртом. Это нужно для того, чтобы не пачкаться при снятии процессора.

-3

Процессоры чистые, извлекаем их. Сразу чистим.

-4

Доступны сокеты. Внимательно их осматриваем. Если кто-то уже проводил замену процессоров, то при их снятии старая термопаста могла попасть на контакты слота.

Нашёл маленький кусочек старой термопасты в сокете, выдул его. Сомневаюсь, что проблема была в нём, но мало ли...

-5

Фонарик телефона поможет осмотреть контакты сокета. Иногда они могут быть погнуты. В моём случае повреждений я не заметил.

-6

Устанавливаю на место процессоры. Естественно, при установке меняю их местами.

-7

Наношу термопасту и устанавливаю радиаторы.

Как наносить термопасту?

Кстати, не затягивайте сильно винты. Еле смог открутить их при демонтаже. Сильная затяжка тоже может влиять на работу процессоров.

-8

Дальше не особо интересно. Извлекаю память, чищу её и сами слоты. Точно так же поступаю со всеми PCIe адаптерами. Собираю сервер и включаю его.

Удивительно, но за месяц дальнейшей эксплуатации проблема с CPU больше не повторилась.

Чистим с нами,
чистим как мы,
чистим лучше нас!

P.S.

Иногда и так моют:

Источник:

Обслуживание сервера HPE Proliant DL360 Gen9 | internet-lab.ru

💰 Поддержать проект

Если вам понравилась статья, то ставьте 👍🏻 каналу. Пишите комментарии, задавайте вопросы, подписывайтесь.