116 подписчиков

Мониторинг инженерных рисков для ИТ: перегрев, питание, ИБП — что ловим и как реагируем

4 февраля4 фев

4 мин

Большинство аварий в серверных происходит не из-за отказа «железа», а из-за проблем с охлаждением, электропитанием и протечками. Разбираем, какие инженерные параметры критичны для ИТ-инфраструктуры, какие пороги опасны и как построить систему реагирования, которая предупредит простой. Когда инженерная система дала сбой, времени на реакцию — минуты. Кондиционер остановился — через 15 минут температура в стойке подскакивает до 40°C, серверы уходят в троттлинг или аварийно выключаются. ИБП работает на изношенных батареях — при отключении света нагрузка «падает» через 3 минуты вместо заявленных 10. Протечка под фальшполом — вода доходит до розеток или корпусов за 5–7 минут, пока охрана обходит этажи. Проблема в том, что классический ИТ-мониторинг (Zabbix, Prometheus) «видит» только логические объекты: доступность портов, загрузку CPU. Он не знает, что в серверной +35°C, на ИБП горит «перегруз батарей» или под стойкой лужа. Поэтому для надёжной работы ИТ-систем критически важен мониторинг

Оглавление

Почему серверы «падают» не от нагрузки, а от жары и отключений
📋 Чек-лист инженерных параметров: что мониторим
Как это работает: архитектура мониторинга

Почему серверы «падают» не от нагрузки, а от жары и отключений

Когда инженерная система дала сбой, времени на реакцию — минуты. Кондиционер остановился — через 15 минут температура в стойке подскакивает до 40°C, серверы уходят в троттлинг или аварийно выключаются. ИБП работает на изношенных батареях — при отключении света нагрузка «падает» через 3 минуты вместо заявленных 10. Протечка под фальшполом — вода доходит до розеток или корпусов за 5–7 минут, пока охрана обходит этажи.

Проблема в том, что классический ИТ-мониторинг (Zabbix, Prometheus) «видит» только логические объекты: доступность портов, загрузку CPU. Он не знает, что в серверной +35°C, на ИБП горит «перегруз батарей» или под стойкой лужа. Поэтому для надёжной работы ИТ-систем критически важен мониторинг инженерной инфраструктуры.

📋 Чек-лист инженерных параметров: что мониторим

Чтобы не допустить аварию, нужно следить за физическими показателями среды. Вот главные метрики:

1. Температура в стойке

Критический порог: >27°C (стандарт ASHRAE A1). Свыше 32°C — авария.
Чем грозит: Троттлинг процессоров (падение производительности 1С/SQL), аварийное отключение, быстрая деградация оборудования.
Как ловим: Датчики температуры в «холодном» и «горячем» коридорах, данные с IPMI/iDRAC серверов.

2. Влажность воздуха

Критический порог: Ниже 20% или выше 80%.
Чем грозит: При низкой влажности — пробой статическим электричеством. При высокой — конденсат и коррозия плат.
Как ловим: Гигрометры (датчики влажности) в помещении.

3. Состояние ИБП (UPS)

Критический порог: Заряд батарей <80%, нагрузка >90%, перегрев АКБ >40°C.
Чем грозит: ИБП не удержит нагрузку при скачке напряжения, батареи вздуются или выйдут из строя раньше срока.
Как ловим: SNMP-карты в ИБП, интеграция с Zabbix или DCIM.

4. Протечки жидкости

Критический порог: Любое обнаружение влаги.
Чем грозит: Короткое замыкание, пожар, полная потеря оборудования в залитой зоне.
Как ловим: Сенсорный кабель по периметру (под фальшполом) или точечные датчики в зонах риска (под кондиционерами и трубами).

5. Напряжение электросети

Критический порог: Выход за пределы 200–250В, резкие провалы >10%.
Чем грозит: Постоянный переход на батареи (износ ИБП), отключение питания стоек.
Как ловим: Сетевые анализаторы, данные с входа ИБП.

Как это работает: архитектура мониторинга

Для комплексного контроля мы используем системы, которые собирают данные от «железа» через протоколы SNMP, Modbus или сухие контакты.

Типовая схема:

Датчики собирают физику (градусы, вольты, наличие воды).
Контроллеры передают данные в единую платформу (например, Zabbix).
Система оповещений шлёт SMS инженеру, письмо руководителю или создает задачу в Jira.

В проекте внедрения системы мониторинга Zabbix для крупной сети мы настроили сбор данных не только с серверов, но и интегрировали мониторинг климата в филиалах. Это позволило увидеть проблемы с кондиционированием до того, как они привели к поломке техники.

🚨 Сценарии реагирования: что делать при аварии

Мониторинг бесполезен, если нет плана действий. Вот примеры рабочих сценариев:

Ситуация: Перегрев в стойке (>27°C)

Реакция системы: Отправка уведомления дежурному инженеру, создание тикета.
Действия персонала: Проверить работу кондиционеров, почистить фильтры, проверить потоки воздуха (не закрыты ли они коробками).

Ситуация: Критический перегрев (>32°C)

Реакция системы: Алерт с приоритетом Disaster, SMS руководителю ИТ.
Действия персонала: Аварийное отключение некритичных серверов для снижения тепловыделения, срочный вызов климатической службы.

Ситуация: ИБП перешел на батареи

Реакция системы: Таймер на 5 минут. Если питание не вернулось — запуск скрипта на корректное выключение (graceful shutdown) виртуальных машин.
Действия персонала: Проверка вводного автомата, контроль запуска дизель-генератора.

Ситуация: Обнаружена протечка

Реакция системы: Мгновенный звонок/SMS, автоматическое перекрытие клапанов (если есть приводы).
Действия персонала: Локализация источника воды, при необходимости — ручное обесточивание залитой зоны.

Кейс: как мониторинг инженерки спас 1С на производстве

Фармацевтическая компания столкнулась с «плавающими» зависаниями 1С. ИТ-мониторинг показывал, что серверы в норме, сеть не перегружена.

После внедрения комплексного мониторинга мы выяснили причину: бытовой кондиционер в серверной периодически отключался, температура прыгала до 34°C, и процессоры сбрасывали частоту (троттлинг). Настроив триггеры на 27°C, мы исключили простои: теперь дежурный узнает о проблеме с климатом за полчаса до того, как это повлияет на работу бухгалтерии.

С чего начать?

Инвентаризация: составьте список всех точек, где стоит критичное оборудование.
Пороги: определите, какая температура и время работы от ИБП для вас критичны.
Установка: разместите датчики в «горячих» зонах и под фальшполом.
Регламент: пропишите, кто и что делает, когда приходит SMS «Авария питания».

Нужна защита от инженерных рисков?
Компания ПСК внедряет системы мониторинга «под ключ» с интеграцией климата, электрики и ИТ-метрик в единое окно.

Больше материалов по теме:

👉 Внедрение системы мониторинга Zabbix: реальный кейс

👉 Комплексное обслуживание ИТ-инфраструктуры: что включено