Интересный кейс произошёл с сервером Dell PowerEdge R740xd2. В какой-то момент в операционной системе Ubuntu 18.04 LTS появились ошибки вида: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disabled this message.INFO: task smbd:1589 blocked for more than 120 seconds. Полез смотреть логи iDRAC, а там: The memory health monitor feature has detected a degradation in the DIMM installed in DIMM_A1. Reboot system to initiate self-heal process. Произошла деградация планки памяти, что явно видно в таймаутах ОС, iDRAC предлагает перезагрузить сервер, чтобы выполнить самовосстановление. Хорошо, перезагружаю сервер. После перезагрузки в логах: The self-heal operation successfully completed at DIMM_A1. Ошибки памяти могут быть вызваны большим количеством факторов. Классический случай, когда один бит DRAM автоматически переходит в противоположное состояние 0 ⇔ 1. Ошибка может быть вызвана перегревом, старением памяти, производственным дефектом, механическим повреждением, космическими лучами. Эти