Большинство аварий в серверных происходит не из-за отказа «железа», а из-за проблем с охлаждением, электропитанием и протечками. Разбираем, какие инженерные параметры критичны для ИТ-инфраструктуры, какие пороги опасны и как построить систему реагирования, которая предупредит простой.
Почему серверы «падают» не от нагрузки, а от жары и отключений
Когда инженерная система дала сбой, времени на реакцию — минуты. Кондиционер остановился — через 15 минут температура в стойке подскакивает до 40°C, серверы уходят в троттлинг или аварийно выключаются. ИБП работает на изношенных батареях — при отключении света нагрузка «падает» через 3 минуты вместо заявленных 10. Протечка под фальшполом — вода доходит до розеток или корпусов за 5–7 минут, пока охрана обходит этажи.
Проблема в том, что классический ИТ-мониторинг (Zabbix, Prometheus) «видит» только логические объекты: доступность портов, загрузку CPU. Он не знает, что в серверной +35°C, на ИБП горит «перегруз батарей» или под стойкой лужа. Поэтому для надёжной работы ИТ-систем критически важен мониторинг инженерной инфраструктуры.
📋 Чек-лист инженерных параметров: что мониторим
Чтобы не допустить аварию, нужно следить за физическими показателями среды. Вот главные метрики:
1. Температура в стойке
- Критический порог: >27°C (стандарт ASHRAE A1). Свыше 32°C — авария.
- Чем грозит: Троттлинг процессоров (падение производительности 1С/SQL), аварийное отключение, быстрая деградация оборудования.
- Как ловим: Датчики температуры в «холодном» и «горячем» коридорах, данные с IPMI/iDRAC серверов.
2. Влажность воздуха
- Критический порог: Ниже 20% или выше 80%.
- Чем грозит: При низкой влажности — пробой статическим электричеством. При высокой — конденсат и коррозия плат.
- Как ловим: Гигрометры (датчики влажности) в помещении.
3. Состояние ИБП (UPS)
- Критический порог: Заряд батарей <80%, нагрузка >90%, перегрев АКБ >40°C.
- Чем грозит: ИБП не удержит нагрузку при скачке напряжения, батареи вздуются или выйдут из строя раньше срока.
- Как ловим: SNMP-карты в ИБП, интеграция с Zabbix или DCIM.
4. Протечки жидкости
- Критический порог: Любое обнаружение влаги.
- Чем грозит: Короткое замыкание, пожар, полная потеря оборудования в залитой зоне.
- Как ловим: Сенсорный кабель по периметру (под фальшполом) или точечные датчики в зонах риска (под кондиционерами и трубами).
5. Напряжение электросети
- Критический порог: Выход за пределы 200–250В, резкие провалы >10%.
- Чем грозит: Постоянный переход на батареи (износ ИБП), отключение питания стоек.
- Как ловим: Сетевые анализаторы, данные с входа ИБП.
Как это работает: архитектура мониторинга
Для комплексного контроля мы используем системы, которые собирают данные от «железа» через протоколы SNMP, Modbus или сухие контакты.
Типовая схема:
- Датчики собирают физику (градусы, вольты, наличие воды).
- Контроллеры передают данные в единую платформу (например, Zabbix).
- Система оповещений шлёт SMS инженеру, письмо руководителю или создает задачу в Jira.
В проекте внедрения системы мониторинга Zabbix для крупной сети мы настроили сбор данных не только с серверов, но и интегрировали мониторинг климата в филиалах. Это позволило увидеть проблемы с кондиционированием до того, как они привели к поломке техники.
🚨 Сценарии реагирования: что делать при аварии
Мониторинг бесполезен, если нет плана действий. Вот примеры рабочих сценариев:
Ситуация: Перегрев в стойке (>27°C)
- Реакция системы: Отправка уведомления дежурному инженеру, создание тикета.
- Действия персонала: Проверить работу кондиционеров, почистить фильтры, проверить потоки воздуха (не закрыты ли они коробками).
Ситуация: Критический перегрев (>32°C)
- Реакция системы: Алерт с приоритетом Disaster, SMS руководителю ИТ.
- Действия персонала: Аварийное отключение некритичных серверов для снижения тепловыделения, срочный вызов климатической службы.
Ситуация: ИБП перешел на батареи
- Реакция системы: Таймер на 5 минут. Если питание не вернулось — запуск скрипта на корректное выключение (graceful shutdown) виртуальных машин.
- Действия персонала: Проверка вводного автомата, контроль запуска дизель-генератора.
Ситуация: Обнаружена протечка
- Реакция системы: Мгновенный звонок/SMS, автоматическое перекрытие клапанов (если есть приводы).
- Действия персонала: Локализация источника воды, при необходимости — ручное обесточивание залитой зоны.
Кейс: как мониторинг инженерки спас 1С на производстве
Фармацевтическая компания столкнулась с «плавающими» зависаниями 1С. ИТ-мониторинг показывал, что серверы в норме, сеть не перегружена.
После внедрения комплексного мониторинга мы выяснили причину: бытовой кондиционер в серверной периодически отключался, температура прыгала до 34°C, и процессоры сбрасывали частоту (троттлинг). Настроив триггеры на 27°C, мы исключили простои: теперь дежурный узнает о проблеме с климатом за полчаса до того, как это повлияет на работу бухгалтерии.
С чего начать?
- Инвентаризация: составьте список всех точек, где стоит критичное оборудование.
- Пороги: определите, какая температура и время работы от ИБП для вас критичны.
- Установка: разместите датчики в «горячих» зонах и под фальшполом.
- Регламент: пропишите, кто и что делает, когда приходит SMS «Авария питания».
Нужна защита от инженерных рисков?
Компания ПСК внедряет системы мониторинга «под ключ» с интеграцией климата, электрики и ИТ-метрик в единое окно.
Больше материалов по теме:
👉 Внедрение системы мониторинга Zabbix: реальный кейс
👉 Комплексное обслуживание ИТ-инфраструктуры: что включено