Добавить в корзинуПозвонить
Найти в Дзене
Server Gate

Зачем серверу два блока питания и как работает резервирование PSU

Вопрос резервирования питания выглядит простым только до первого аварийного отключения. Разбираем устройство серверного PSU, логику резервирования и способы проверить, что схема действительно работает. От потребительских блоков серверный PSU (Power Supply Unit) отличается принципиально. Внутри — собственный микроконтроллер, который непрерывно измеряет напряжение, ток, температуру обмоток и скорость вентилятора. Данные передаются в BMC сервера по шине PMBus. При неисправности блок не отключается молча: он формирует событие, которое BMC записывает в системный журнал и отправляет как SNMP-трап во внешнюю систему мониторинга. Именно это отличает серверный PSU от потребительского: неисправность фиксируется и передается дежурному администратору до того, как кто-либо окажется рядом с оборудованием. Форм-фактор — горячезаменяемый (hot-swap) модуль. Замена выполняется без остановки сервера: неисправный блок извлекается из отсека, на его место устанавливается исправный. Конструкция разъема искл
Оглавление

Вопрос резервирования питания выглядит простым только до первого аварийного отключения. Разбираем устройство серверного PSU, логику резервирования и способы проверить, что схема действительно работает.

Что такое PSU в сервере

От потребительских блоков серверный PSU (Power Supply Unit) отличается принципиально. Внутри — собственный микроконтроллер, который непрерывно измеряет напряжение, ток, температуру обмоток и скорость вентилятора. Данные передаются в BMC сервера по шине PMBus. При неисправности блок не отключается молча: он формирует событие, которое BMC записывает в системный журнал и отправляет как SNMP-трап во внешнюю систему мониторинга. Именно это отличает серверный PSU от потребительского: неисправность фиксируется и передается дежурному администратору до того, как кто-либо окажется рядом с оборудованием.

Форм-фактор — горячезаменяемый (hot-swap) модуль. Замена выполняется без остановки сервера: неисправный блок извлекается из отсека, на его место устанавливается исправный. Конструкция разъема исключает некорректную установку.

Совместимость PSU в платформах HPE, Dell и Cisco ограничена рамками одной линейки и поколения. При заказе замены необходимо сверять артикул (Part Number): расхождение в номере означает несовместимый разъем или иной диапазон входного напряжения.

Зачем нужны два PSU и как их правильно подключать

Одиночный PSU — единственный путь электроэнергии к серверу. Любой его отказ немедленно останавливает оборудование. Для систем, требующих непрерывной работы, это неприемлемо.

Второй блок создает резервный контур. Но работает это только при одном условии: каждый PSU должен подключаться к физически независимому источнику питания. Оба блока на одном PDU или одном ИБП — и точка отказа просто переместилась на уровень выше. Один сработавший автоматический выключатель — оба PSU без питания.

Корректная схема подключения:

  • PSU-A → PDU-A → UPS-A → ввод А — первый независимый путь
  • PSU-B → PDU-B → UPS-B → ввод Б — второй независимый путь

Распространенные ошибки:

  • Оба PSU подключены к одному PDU — авария PDU останавливает сервер.
  • Оба PDU питаются от одного UPS — отказ источника бесперебойного питания гасит оба ввода.
  • Оба ввода идут от одной секции щита — один автоматический выключатель обесточивает оба пути.

Глубина разделения определяет реальный уровень защиты. PDU — от разных UPS, UPS — от разных секций щита, щиты — от разных трансформаторов. Защита действует ровно до того уровня, на котором цепи разделены. Это означает, что проверить схему недостаточно только на уровне PDU — необходимо убедиться в независимости на каждом звене: PDU, UPS, секция щита, трансформатор. Один общий элемент в цепочке аннулирует резервирование всех вышестоящих уровней.

В стойке схема A/B выглядит так: два PDU по разным сторонам, один на вводе А, другой на вводе Б. Кабель питания каждого сервера подключается к соответствующему PDU. Перепутанные кабели при монтаже — и оба PSU оказываются на одном вводе без каких-либо визуальных признаков ошибки.

При вводе сервера в эксплуатацию следует задокументировать схему подключения: к каким PDU подключены кабели, от каких UPS питаются PDU, от каких секций щита — UPS. Без этой документации проверить корректность схемы впоследствии значительно сложнее. Хорошей практикой является также маркировка кабелей питания непосредственно на серверах: цветовое обозначение или бирки с указанием PDU и ввода позволяют при визуальном осмотре стойки быстро выявить ошибки подключения без обращения к документации.

Как работает резервирование блоков питания

Два установленных PSU могут работать в разных режимах в зависимости от платформы и настроек BMC.

Режим 1+1 — Active / Standby

Один блок несет всю нагрузку, второй в горячем ожидании: включен, прогрет, готов. При отказе основного резервный вступает в работу за единицы миллисекунд — операционная система не регистрирует прерываний. Недостаток: неравномерный износ. Основной блок работает с полной нагрузкой, резервный практически простаивает. Для компенсации рекомендуется периодически менять блоки местами — менять роли основного и резервного при плановом обслуживании.

Режим 2+0 — Active / Active

Оба PSU работают одновременно, каждый несет около 50% нагрузки. При отказе одного второй берет на себя 100%. Более высокий КПД, равномерный износ, меньший нагрев в штатном режиме. Самый распространенный вариант в современных rack-серверах. Дополнительное преимущество режима — более равномерный тепловой профиль: два блока, работающих с нагрузкой 50%, рассеивают меньше тепла, чем один блок с нагрузкой 100%, что положительно сказывается на ресурсе вентиляторов и силовых компонентов.

Режим N+1 — для шасси и блейд-систем

В шасси с 4–8 блоками: N — минимум PSU для обеспечения полной нагрузки, +1 — резервный. Выход из строя любого одного блока не нарушает работу системы. Характерно для HPE c7000, Dell M1000e, Cisco UCS 5108.

В режиме Active/Active каждый PSU должен самостоятельно обеспечивать 100% потребления сервера при отказе второго. Если сервер потребляет 700 Вт, а каждый блок рассчитан на 500 Вт, при потере одного PSU второй перейдет в защиту от перегрузки. Мощность блоков необходимо пересчитывать при каждом изменении конфигурации.

Физически балансировка реализована через диодную развязку или активные схемы выравнивания токов. Диоды обеспечивают однонаправленность тока: при отказе одного PSU ток исправного блока не проходит через неисправный, что исключает каскадный сбой. Современные платформы применяют активные схемы — они снижают потери на диодном падении и повышают суммарный КПД пары. BMC контролирует баланс нагрузки по шине PMBus и фиксирует отклонения до наступления полного отказа. Это позволяет администратору заменить деградирующий блок в плановом режиме, не дожидаясь аварийного отключения.

Что такое A/B-питание

A/B-питание — принцип организации электроснабжения на уровне дата-центра. Каждая стойка и каждый сервер получают два независимых электрических пути: ввод А и ввод Б. Отказ любого элемента на одном вводе не затрагивает второй.

Структура цепи:

  • Ввод А: TP-1 → UPS-A → PDU-A → PSU-A сервера
  • Ввод Б: TP-2 → UPS-B → PDU-B → PSU-B сервера

Каждый элемент цепи независим от своего аналога на другом вводе: отдельные трансформаторы, отдельные помещения для UPS, отдельные вводные устройства, раздельные кабельные трассы. В стойке это выражается в двух PDU: один на вводе А, другой на вводе Б.

Методология Uptime Institute Tier Classification требует от объектов Tier III и Tier IV питания по схеме не хуже N+1 или 2N на каждом уровне. Tier III — возможность обслуживания любого элемента без остановки нагрузки, Tier IV — устойчивость к отказу любого одного элемента. Без A/B-питания ни один из этих уровней недостижим.

A/B-питание не защитит, если оба ввода идут с одной подстанции. При аварии на подстанции оба ввода теряются одновременно. В объектах с высокими требованиями к доступности вводы организуются от разных подстанций или резервируются дизельными генераторами.

Как убедиться, что резервирование работает

Кабель может быть подключен к неверному PDU при монтаже, BMC настроен некорректно, мощности одного PSU может не хватить при реальной нагрузке. Нарушения в схеме резервирования, как правило, обнаруживаются в момент аварии — если систему не проверяли с момента ввода в эксплуатацию. Регулярная верификация резервирования питания должна быть включена в регламент обслуживания инфраструктуры наравне с проверками других важных систем.

Пассивный мониторинг — на постоянной основе:

  • Статус PSU в BMC. Интерфейсы iDRAC (Dell) и iLO (HPE) или стандартный IPMI: оба PSU должны иметь статус Present и OK. Статус Absent — некорректный контакт, неисправность или неполная установка блока. Проверяется при каждой инвентаризации.
  • Ipmitool sdr type «Power Supply». Детализация по каждому PSU: напряжение, ток, статус рейлов. Позволяет выявить деградацию блока без полного отказа — блок сохраняет статус OK, но напряжение на рейлах нестабильно.
  • Баланс нагрузки. В режиме Active/Active отклонение более 15–20% указывает на деградацию одного из блоков или нарушение схемы балансировки. Контролируется через IPMI или вендорские утилиты: Dell OMSA, HPE Insight Diagnostics.
  • Оповещения в системе мониторинга. IPMI-трапы в Zabbix, Nagios или PRTG должны срабатывать при любом отказе PSU. После настройки — обязательная проверка: смоделировать отказ и убедиться, что оповещение получено. Непроверенный мониторинг — ненадежный мониторинг.

Активные тесты — в окно регламентного обслуживания:

  1. Физическое извлечение одного PSU. Тест на работающем сервере. Сервер должен продолжить работу без прерываний: сетевая доступность сохраняется, в журналах ОС нет ошибок. Прерывание в работе означает нарушение резервирования или нехватку мощности одного блока. После теста блок устанавливается обратно, статус OK подтверждается в BMC.
  2. Отключение питающей цепи PDU. Отключается PDU, к которому подключен PSU-A. Сохранение работоспособности сервера подтверждает корректность схемы. Потеря доступности указывает на нарушение изоляции вводов. Тест проводится ежегодно совместно с персоналом технической эксплуатации.

После замены PSU необходимо пройти полный цикл проверки: подтвердить статус нового блока в BMC, проверить баланс нагрузки, повторить физический тест. Новый модуль после длительного хранения может содержать скрытый дефект, проявляющийся только под нагрузкой.

Сводный чек-лист:

Параметр

Периодичность

Оба PSU в статусе OK (IPMI / BMC)

Постоянный мониторинг

PSU-A и PSU-B подключены к разным PDU

Проверка при монтаже

PDU питаются от разных UPS и вводов

Проверка при монтаже

Мощность каждого PSU ≥ 100% нагрузки

При изменении конфигурации

Оповещение при отказе PSU протестировано

После каждого изменения

Баланс нагрузки между PSU (отклонение <15%)

Ежеквартально

Тест физического извлечения PSU

Ежегодно

Тест отключения питающей PDU-цепи

Ежегодно

Заключение

Два блока питания — необходимое, но недостаточное условие надежного электроснабжения сервера. Резервирование работает только как система: независимые вводы, раздельные цепи через разные PDU и UPS, настроенный мониторинг, регулярные проверки.

Большинство нарушений резервирования связаны не с отказом оборудования, а с ошибками при монтаже или проектировании: оба кабеля в одном PDU, оба PDU от одного UPS, мощность блоков не пересчитана после замены процессоров или добавления GPU. Все это выявляется при плановых проверках — если они проводятся регулярно и результаты документируются. Разрыв в цепочке резервирования, обнаруженный при плановом тесте, стоит часа работы. Тот же разрыв, обнаруженный в момент реальной аварии, стоит значительно дороже.

Выводы:

  1. Active/Active — предпочтительный режим: равномерный износ блоков, более высокий КПД, предсказуемое поведение при отказе.
  2. A/B-питание реализуется на уровне PDU и UPS, а не только на уровне сервера. Общий PDU или общий UPS — и резервирование остается номинальным.
  3. Мощность каждого PSU должна покрывать 100% нагрузки — это требование необходимо пересматривать при любом изменении конфигурации сервера.
  4. Физический тест — единственная достоверная проверка. Схема может выглядеть корректной в документации, но не работать в реальности из-за ошибки монтажа, деградации оборудования или изменений, внесенных без обновления схемы.
  5. Мониторинг без верификации не дает гарантий. Оповещение об отказе PSU должно подтверждаться тестовой имитацией после каждого изменения в конфигурации мониторинга или оборудования. Это занимает несколько минут и исключает ситуацию, когда оповещение перестало приходить по неизвестной причине.

Корректно выстроенное резервирование питания при первоначальном проектировании и регулярная его верификация обходятся значительно дешевле, чем устранение последствий внепланового инцидента и потери от недоступности сервисов.