HPE Proliant — CPU Throttling Triggered

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.

Пришло сообщение:

EVENT (26-Jan-2022 00:55): CPU Throttling Triggered, CPU may be operating at reduced performance.
ACTION: Check the thermals of the system. Check fans, processor heat sink and air baffles installation.

Троттлинг — это специальный механизм защиты процессора от перегрева. Чем больше температура, тем больше тактов пропускает процессор. Температура процессора при этом снижается, производительность тоже.

Без такой защиты процессор может сгореть, если система охлаждение выйдет из строя. Лучше снижение производительности, чем дохлый сервер.

Я бросился проверять температуру сервера. К моему удивлению температура оказалась в порядке, питание тоже. Нагрузка на CPU по мониторингу не превышала 30%, всплесков не было. Странно.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-2

Через сутки ситуация повторилась, а потом снова.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-3

Пришлось обратиться поддержку. Там посоветовали сделать две вещи:

  • Изменить план рабочей нагрузки на более производительный.
  • Повысить обороты вентиляторов.

План рабочей нагрузки

HPE ProLiant Gen10 — меняем профиль рабочей нагрузки

Перезагружаю сервер.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-4

Текущий профиль: Workload Profile: General Power Efficient Compute. У меня сервер выполняет роль гипервизора, для этот профиль не самый лучший. Установлю Virtualization - Max Performance. Нажимаю F9.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-5

System Configuration.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-6

BIOS/Platform Configuration (RBSU).

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-7

Изменяем Workload Profile на Virtualization - Max Performance.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-8

OK.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-9

F12: Save and Exit.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-10

Yes - Save Changes.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-11

Reboot. Сервер перезагружается.

План рабочей нагрузки Virtualization - Max Performance меняет некоторые параметры BIOS:

  • System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Power Regulator. Static High Performance Mode—Processors.
  • System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Minimum Processor Idle Power Core C-State. No C-states.
  • System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Minimum Processor Idle Power Package C-State. No Package State.
  • System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Energy/Performance Bias. Maximum Performance.
  • System Configuration → BIOS/Platform Configuration (RBSU) → Power and Performance Options → Collaborative Power Control. Disabled.

Обороты вентиляторов

Вентиляторы настраиваются в iLO в разделе Power & Thermal → Fans.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-12

Значение по умолчанию: Optimal Cooling (16%). Для внесения изменений нужно загрузить сервер и нажать на карандаш.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-13

Возможные варианты:

  • Optimal Cooling
  • Enhanced CPU Cooling
  • Increased Cooling
  • Maximum Cooling

Я устанавливаю Maximum Cooling.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-14

Потребуется перезапуск iLO.

Погода была морозная и прекрасная. Настроение было замечательное. Всё работало как часы. Ничего не предвещало беды. И, вдруг, сервер HPE ProLiant DL360 Gen10 сошёл с ума.-15

Теперь вентиляторы загружены на 100%.

Заключение

Проблема с троттлингом процессора решена. Больше ошибок не было.

Через несколько дней я вернул настройки вентиляторов на прежние: Optimal Cooling. Вероятно, проблема решилась только сменой плана рабочей нагрузки. Однако, если температура в стойке высокая, то можно и повысить обороты.

Следите за охлаждением! Здоровья вашим серверам.

Источник:
https://internet-lab.ru/hpe_proliant_cpu_throttling_triggered

💰 Поддержать проект

Если вам понравилась статья, то ставьте 👍🏻 каналу.
Пишите комментарии, задавайте вопросы, подписывайтесь.