На сервере Dell PowerEdge R640 поймали ошибку. Сервер покраснел, iDRAC семафорит об ошибке, в логах нечто такое: Correctable memory error logging disabled for a memory device at location DIMM_A4.
Correctable Machine Check Exception detected on CPU 1. Ну, посмотрел я на эту ошибку, рестартанул iDRAC, чтобы ошибка ушла. Запланировал диагностику памяти и замену в отдалённом будущем. Только я расслабился, сервер ушёл в перезагрузку. Multi-bit memory errors are detected on the memory device at location(s) DIMM_A4. Immediately replace the DIMM.
CPU 1 machine check error detected. А потом снова в перезагрузку. И ещё раз в перезагрузку. Затем запустился, поработал две минуты, и снова в перезагрузку. Ой как не хочется в ЦОД ехать среди ночи. В сервере 8 планок памяти по 32 ГБ, можно было бы отключить одну, сервер бы какое-то время поработал без неё. Но выборочно DIMM слот у этого сервера отключить нельзя. Однако, ехать в ЦОД всё равно не хочется. Делаем ход конём. 🐴 Убеждаемся что с памятью вс