Нет повести печальнее на свете, чем видеть в логе "System Overheating". Перегрелся сервер HPE Proliant DL380 Gen10, и выключился. Перегрелся из-за того, что в машинном зале вышел из строя кондиционер, внешняя температура повысилась. В логах это выглядит очень просто. Сначала мы получаем сообщение вида: System Overheating (Temperature Sensor 1, Location Ambient, Temperature 43) Система мониторинга тоже не спит, на 42 °C приходит уведомление. Затем процессор начинает троттлиться и уходит в полку. После этого получаем сообщение вида: Automatic Operating System Shutdown Initiated Due to Overheat Condition Сервер выключается. Нужно устранить причину перегрева, затем включить сервер. Если причину перегрева устранить нельзя, а температура держится в пограничной зоне, когда сервер вот-вот отключится снова, можно подкрутить параметры сервера в iLO. Power & Thermal → Fans → Fan Settings. Можно врубить вентиляторы на полную: Max Cooling. Power & Thermal → Power Settings → Power Regulator Settings
