Вопрос резервирования питания выглядит простым только до первого аварийного отключения. Разбираем устройство серверного PSU, логику резервирования и способы проверить, что схема действительно работает.
Что такое PSU в сервере
От потребительских блоков серверный PSU (Power Supply Unit) отличается принципиально. Внутри — собственный микроконтроллер, который непрерывно измеряет напряжение, ток, температуру обмоток и скорость вентилятора. Данные передаются в BMC сервера по шине PMBus. При неисправности блок не отключается молча: он формирует событие, которое BMC записывает в системный журнал и отправляет как SNMP-трап во внешнюю систему мониторинга. Именно это отличает серверный PSU от потребительского: неисправность фиксируется и передается дежурному администратору до того, как кто-либо окажется рядом с оборудованием.
Форм-фактор — горячезаменяемый (hot-swap) модуль. Замена выполняется без остановки сервера: неисправный блок извлекается из отсека, на его место устанавливается исправный. Конструкция разъема исключает некорректную установку.
Совместимость PSU в платформах HPE, Dell и Cisco ограничена рамками одной линейки и поколения. При заказе замены необходимо сверять артикул (Part Number): расхождение в номере означает несовместимый разъем или иной диапазон входного напряжения.
Зачем нужны два PSU и как их правильно подключать
Одиночный PSU — единственный путь электроэнергии к серверу. Любой его отказ немедленно останавливает оборудование. Для систем, требующих непрерывной работы, это неприемлемо.
Второй блок создает резервный контур. Но работает это только при одном условии: каждый PSU должен подключаться к физически независимому источнику питания. Оба блока на одном PDU или одном ИБП — и точка отказа просто переместилась на уровень выше. Один сработавший автоматический выключатель — оба PSU без питания.
Корректная схема подключения:
- PSU-A → PDU-A → UPS-A → ввод А — первый независимый путь
- PSU-B → PDU-B → UPS-B → ввод Б — второй независимый путь
Распространенные ошибки:
- Оба PSU подключены к одному PDU — авария PDU останавливает сервер.
- Оба PDU питаются от одного UPS — отказ источника бесперебойного питания гасит оба ввода.
- Оба ввода идут от одной секции щита — один автоматический выключатель обесточивает оба пути.
Глубина разделения определяет реальный уровень защиты. PDU — от разных UPS, UPS — от разных секций щита, щиты — от разных трансформаторов. Защита действует ровно до того уровня, на котором цепи разделены. Это означает, что проверить схему недостаточно только на уровне PDU — необходимо убедиться в независимости на каждом звене: PDU, UPS, секция щита, трансформатор. Один общий элемент в цепочке аннулирует резервирование всех вышестоящих уровней.
В стойке схема A/B выглядит так: два PDU по разным сторонам, один на вводе А, другой на вводе Б. Кабель питания каждого сервера подключается к соответствующему PDU. Перепутанные кабели при монтаже — и оба PSU оказываются на одном вводе без каких-либо визуальных признаков ошибки.
При вводе сервера в эксплуатацию следует задокументировать схему подключения: к каким PDU подключены кабели, от каких UPS питаются PDU, от каких секций щита — UPS. Без этой документации проверить корректность схемы впоследствии значительно сложнее. Хорошей практикой является также маркировка кабелей питания непосредственно на серверах: цветовое обозначение или бирки с указанием PDU и ввода позволяют при визуальном осмотре стойки быстро выявить ошибки подключения без обращения к документации.
Как работает резервирование блоков питания
Два установленных PSU могут работать в разных режимах в зависимости от платформы и настроек BMC.
Режим 1+1 — Active / Standby
Один блок несет всю нагрузку, второй в горячем ожидании: включен, прогрет, готов. При отказе основного резервный вступает в работу за единицы миллисекунд — операционная система не регистрирует прерываний. Недостаток: неравномерный износ. Основной блок работает с полной нагрузкой, резервный практически простаивает. Для компенсации рекомендуется периодически менять блоки местами — менять роли основного и резервного при плановом обслуживании.
Режим 2+0 — Active / Active
Оба PSU работают одновременно, каждый несет около 50% нагрузки. При отказе одного второй берет на себя 100%. Более высокий КПД, равномерный износ, меньший нагрев в штатном режиме. Самый распространенный вариант в современных rack-серверах. Дополнительное преимущество режима — более равномерный тепловой профиль: два блока, работающих с нагрузкой 50%, рассеивают меньше тепла, чем один блок с нагрузкой 100%, что положительно сказывается на ресурсе вентиляторов и силовых компонентов.
Режим N+1 — для шасси и блейд-систем
В шасси с 4–8 блоками: N — минимум PSU для обеспечения полной нагрузки, +1 — резервный. Выход из строя любого одного блока не нарушает работу системы. Характерно для HPE c7000, Dell M1000e, Cisco UCS 5108.
В режиме Active/Active каждый PSU должен самостоятельно обеспечивать 100% потребления сервера при отказе второго. Если сервер потребляет 700 Вт, а каждый блок рассчитан на 500 Вт, при потере одного PSU второй перейдет в защиту от перегрузки. Мощность блоков необходимо пересчитывать при каждом изменении конфигурации.
Физически балансировка реализована через диодную развязку или активные схемы выравнивания токов. Диоды обеспечивают однонаправленность тока: при отказе одного PSU ток исправного блока не проходит через неисправный, что исключает каскадный сбой. Современные платформы применяют активные схемы — они снижают потери на диодном падении и повышают суммарный КПД пары. BMC контролирует баланс нагрузки по шине PMBus и фиксирует отклонения до наступления полного отказа. Это позволяет администратору заменить деградирующий блок в плановом режиме, не дожидаясь аварийного отключения.
Что такое A/B-питание
A/B-питание — принцип организации электроснабжения на уровне дата-центра. Каждая стойка и каждый сервер получают два независимых электрических пути: ввод А и ввод Б. Отказ любого элемента на одном вводе не затрагивает второй.
Структура цепи:
- Ввод А: TP-1 → UPS-A → PDU-A → PSU-A сервера
- Ввод Б: TP-2 → UPS-B → PDU-B → PSU-B сервера
Каждый элемент цепи независим от своего аналога на другом вводе: отдельные трансформаторы, отдельные помещения для UPS, отдельные вводные устройства, раздельные кабельные трассы. В стойке это выражается в двух PDU: один на вводе А, другой на вводе Б.
Методология Uptime Institute Tier Classification требует от объектов Tier III и Tier IV питания по схеме не хуже N+1 или 2N на каждом уровне. Tier III — возможность обслуживания любого элемента без остановки нагрузки, Tier IV — устойчивость к отказу любого одного элемента. Без A/B-питания ни один из этих уровней недостижим.
A/B-питание не защитит, если оба ввода идут с одной подстанции. При аварии на подстанции оба ввода теряются одновременно. В объектах с высокими требованиями к доступности вводы организуются от разных подстанций или резервируются дизельными генераторами.
Как убедиться, что резервирование работает
Кабель может быть подключен к неверному PDU при монтаже, BMC настроен некорректно, мощности одного PSU может не хватить при реальной нагрузке. Нарушения в схеме резервирования, как правило, обнаруживаются в момент аварии — если систему не проверяли с момента ввода в эксплуатацию. Регулярная верификация резервирования питания должна быть включена в регламент обслуживания инфраструктуры наравне с проверками других важных систем.
Пассивный мониторинг — на постоянной основе:
- Статус PSU в BMC. Интерфейсы iDRAC (Dell) и iLO (HPE) или стандартный IPMI: оба PSU должны иметь статус Present и OK. Статус Absent — некорректный контакт, неисправность или неполная установка блока. Проверяется при каждой инвентаризации.
- Ipmitool sdr type «Power Supply». Детализация по каждому PSU: напряжение, ток, статус рейлов. Позволяет выявить деградацию блока без полного отказа — блок сохраняет статус OK, но напряжение на рейлах нестабильно.
- Баланс нагрузки. В режиме Active/Active отклонение более 15–20% указывает на деградацию одного из блоков или нарушение схемы балансировки. Контролируется через IPMI или вендорские утилиты: Dell OMSA, HPE Insight Diagnostics.
- Оповещения в системе мониторинга. IPMI-трапы в Zabbix, Nagios или PRTG должны срабатывать при любом отказе PSU. После настройки — обязательная проверка: смоделировать отказ и убедиться, что оповещение получено. Непроверенный мониторинг — ненадежный мониторинг.
Активные тесты — в окно регламентного обслуживания:
- Физическое извлечение одного PSU. Тест на работающем сервере. Сервер должен продолжить работу без прерываний: сетевая доступность сохраняется, в журналах ОС нет ошибок. Прерывание в работе означает нарушение резервирования или нехватку мощности одного блока. После теста блок устанавливается обратно, статус OK подтверждается в BMC.
- Отключение питающей цепи PDU. Отключается PDU, к которому подключен PSU-A. Сохранение работоспособности сервера подтверждает корректность схемы. Потеря доступности указывает на нарушение изоляции вводов. Тест проводится ежегодно совместно с персоналом технической эксплуатации.
После замены PSU необходимо пройти полный цикл проверки: подтвердить статус нового блока в BMC, проверить баланс нагрузки, повторить физический тест. Новый модуль после длительного хранения может содержать скрытый дефект, проявляющийся только под нагрузкой.
Сводный чек-лист:
Параметр
Периодичность
Оба PSU в статусе OK (IPMI / BMC)
Постоянный мониторинг
PSU-A и PSU-B подключены к разным PDU
Проверка при монтаже
PDU питаются от разных UPS и вводов
Проверка при монтаже
Мощность каждого PSU ≥ 100% нагрузки
При изменении конфигурации
Оповещение при отказе PSU протестировано
После каждого изменения
Баланс нагрузки между PSU (отклонение <15%)
Ежеквартально
Тест физического извлечения PSU
Ежегодно
Тест отключения питающей PDU-цепи
Ежегодно
Заключение
Два блока питания — необходимое, но недостаточное условие надежного электроснабжения сервера. Резервирование работает только как система: независимые вводы, раздельные цепи через разные PDU и UPS, настроенный мониторинг, регулярные проверки.
Большинство нарушений резервирования связаны не с отказом оборудования, а с ошибками при монтаже или проектировании: оба кабеля в одном PDU, оба PDU от одного UPS, мощность блоков не пересчитана после замены процессоров или добавления GPU. Все это выявляется при плановых проверках — если они проводятся регулярно и результаты документируются. Разрыв в цепочке резервирования, обнаруженный при плановом тесте, стоит часа работы. Тот же разрыв, обнаруженный в момент реальной аварии, стоит значительно дороже.
Выводы:
- Active/Active — предпочтительный режим: равномерный износ блоков, более высокий КПД, предсказуемое поведение при отказе.
- A/B-питание реализуется на уровне PDU и UPS, а не только на уровне сервера. Общий PDU или общий UPS — и резервирование остается номинальным.
- Мощность каждого PSU должна покрывать 100% нагрузки — это требование необходимо пересматривать при любом изменении конфигурации сервера.
- Физический тест — единственная достоверная проверка. Схема может выглядеть корректной в документации, но не работать в реальности из-за ошибки монтажа, деградации оборудования или изменений, внесенных без обновления схемы.
- Мониторинг без верификации не дает гарантий. Оповещение об отказе PSU должно подтверждаться тестовой имитацией после каждого изменения в конфигурации мониторинга или оборудования. Это занимает несколько минут и исключает ситуацию, когда оповещение перестало приходить по неизвестной причине.
Корректно выстроенное резервирование питания при первоначальном проектировании и регулярная его верификация обходятся значительно дешевле, чем устранение последствий внепланового инцидента и потери от недоступности сервисов.