Найти в Дзене

Мониторинг инженерных рисков для ИТ: перегрев, питание, ИБП — что ловим и как реагируем

Большинство аварий в серверных происходит не из-за отказа «железа», а из-за проблем с охлаждением, электропитанием и протечками. Разбираем, какие инженерные параметры критичны для ИТ-инфраструктуры, какие пороги опасны и как построить систему реагирования, которая предупредит простой. Когда инженерная система дала сбой, времени на реакцию — минуты. Кондиционер остановился — через 15 минут температура в стойке подскакивает до 40°C, серверы уходят в троттлинг или аварийно выключаются. ИБП работает на изношенных батареях — при отключении света нагрузка «падает» через 3 минуты вместо заявленных 10. Протечка под фальшполом — вода доходит до розеток или корпусов за 5–7 минут, пока охрана обходит этажи. Проблема в том, что классический ИТ-мониторинг (Zabbix, Prometheus) «видит» только логические объекты: доступность портов, загрузку CPU. Он не знает, что в серверной +35°C, на ИБП горит «перегруз батарей» или под стойкой лужа. Поэтому для надёжной работы ИТ-систем критически важен мониторинг
Оглавление

Большинство аварий в серверных происходит не из-за отказа «железа», а из-за проблем с охлаждением, электропитанием и протечками. Разбираем, какие инженерные параметры критичны для ИТ-инфраструктуры, какие пороги опасны и как построить систему реагирования, которая предупредит простой.

Почему серверы «падают» не от нагрузки, а от жары и отключений

Когда инженерная система дала сбой, времени на реакцию — минуты. Кондиционер остановился — через 15 минут температура в стойке подскакивает до 40°C, серверы уходят в троттлинг или аварийно выключаются. ИБП работает на изношенных батареях — при отключении света нагрузка «падает» через 3 минуты вместо заявленных 10. Протечка под фальшполом — вода доходит до розеток или корпусов за 5–7 минут, пока охрана обходит этажи.

Проблема в том, что классический ИТ-мониторинг (Zabbix, Prometheus) «видит» только логические объекты: доступность портов, загрузку CPU. Он не знает, что в серверной +35°C, на ИБП горит «перегруз батарей» или под стойкой лужа. Поэтому для надёжной работы ИТ-систем критически важен мониторинг инженерной инфраструктуры.

📋 Чек-лист инженерных параметров: что мониторим

Чтобы не допустить аварию, нужно следить за физическими показателями среды. Вот главные метрики:

1. Температура в стойке

  • Критический порог: >27°C (стандарт ASHRAE A1). Свыше 32°C — авария.
  • Чем грозит: Троттлинг процессоров (падение производительности 1С/SQL), аварийное отключение, быстрая деградация оборудования.
  • Как ловим: Датчики температуры в «холодном» и «горячем» коридорах, данные с IPMI/iDRAC серверов.

2. Влажность воздуха

  • Критический порог: Ниже 20% или выше 80%.
  • Чем грозит: При низкой влажности — пробой статическим электричеством. При высокой — конденсат и коррозия плат.
  • Как ловим: Гигрометры (датчики влажности) в помещении.

3. Состояние ИБП (UPS)

  • Критический порог: Заряд батарей <80%, нагрузка >90%, перегрев АКБ >40°C.
  • Чем грозит: ИБП не удержит нагрузку при скачке напряжения, батареи вздуются или выйдут из строя раньше срока.
  • Как ловим: SNMP-карты в ИБП, интеграция с Zabbix или DCIM.

4. Протечки жидкости

  • Критический порог: Любое обнаружение влаги.
  • Чем грозит: Короткое замыкание, пожар, полная потеря оборудования в залитой зоне.
  • Как ловим: Сенсорный кабель по периметру (под фальшполом) или точечные датчики в зонах риска (под кондиционерами и трубами).

5. Напряжение электросети

  • Критический порог: Выход за пределы 200–250В, резкие провалы >10%.
  • Чем грозит: Постоянный переход на батареи (износ ИБП), отключение питания стоек.
  • Как ловим: Сетевые анализаторы, данные с входа ИБП.

Как это работает: архитектура мониторинга

Для комплексного контроля мы используем системы, которые собирают данные от «железа» через протоколы SNMP, Modbus или сухие контакты.

Типовая схема:

  1. Датчики собирают физику (градусы, вольты, наличие воды).
  2. Контроллеры передают данные в единую платформу (например, Zabbix).
  3. Система оповещений шлёт SMS инженеру, письмо руководителю или создает задачу в Jira.

В проекте внедрения системы мониторинга Zabbix для крупной сети мы настроили сбор данных не только с серверов, но и интегрировали мониторинг климата в филиалах. Это позволило увидеть проблемы с кондиционированием до того, как они привели к поломке техники.

🚨 Сценарии реагирования: что делать при аварии

-2

Мониторинг бесполезен, если нет плана действий. Вот примеры рабочих сценариев:

Ситуация: Перегрев в стойке (>27°C)

  • Реакция системы: Отправка уведомления дежурному инженеру, создание тикета.
  • Действия персонала: Проверить работу кондиционеров, почистить фильтры, проверить потоки воздуха (не закрыты ли они коробками).

Ситуация: Критический перегрев (>32°C)

  • Реакция системы: Алерт с приоритетом Disaster, SMS руководителю ИТ.
  • Действия персонала: Аварийное отключение некритичных серверов для снижения тепловыделения, срочный вызов климатической службы.

Ситуация: ИБП перешел на батареи

  • Реакция системы: Таймер на 5 минут. Если питание не вернулось — запуск скрипта на корректное выключение (graceful shutdown) виртуальных машин.
  • Действия персонала: Проверка вводного автомата, контроль запуска дизель-генератора.

Ситуация: Обнаружена протечка

  • Реакция системы: Мгновенный звонок/SMS, автоматическое перекрытие клапанов (если есть приводы).
  • Действия персонала: Локализация источника воды, при необходимости — ручное обесточивание залитой зоны.

Кейс: как мониторинг инженерки спас 1С на производстве

Фармацевтическая компания столкнулась с «плавающими» зависаниями 1С. ИТ-мониторинг показывал, что серверы в норме, сеть не перегружена.

После внедрения комплексного мониторинга мы выяснили причину: бытовой кондиционер в серверной периодически отключался, температура прыгала до 34°C, и процессоры сбрасывали частоту (троттлинг). Настроив триггеры на 27°C, мы исключили простои: теперь дежурный узнает о проблеме с климатом за полчаса до того, как это повлияет на работу бухгалтерии.

С чего начать?

  1. Инвентаризация: составьте список всех точек, где стоит критичное оборудование.
  2. Пороги: определите, какая температура и время работы от ИБП для вас критичны.
  3. Установка: разместите датчики в «горячих» зонах и под фальшполом.
  4. Регламент: пропишите, кто и что делает, когда приходит SMS «Авария питания».

Нужна защита от инженерных рисков?
Компания ПСК внедряет системы мониторинга «под ключ» с интеграцией климата, электрики и ИТ-метрик в единое окно.

Больше материалов по теме:

👉 Внедрение системы мониторинга Zabbix: реальный кейс

👉 Комплексное обслуживание ИТ-инфраструктуры: что включено