Когда в дата-центре фиксируется перегрев, первая реакция очевидна: «Слишком высокая температура» Начинают усиливать охлаждение, проверять кондиционеры, менять настройки.
И это правильно — но только частично. Проблема в том, что температура почти никогда не является первопричиной. Она — уже финальный сигнал.
Следствие цепочки процессов, которые начались гораздо раньше. Температура — один из самых заметных показателей. Она легко измеряется.
Её удобно отслеживать.
На неё быстро реагируют. Но сама по себе она редко растёт «просто так». Если температура увеличилась — это значит, что в системе уже произошли изменения, которые к этому привели. И если работать только с температурой, можно устранить симптом, но не причину. Перегрев — это всегда результат нескольких факторов, которые накапливаются. Чаще всего цепочка начинается раньше и выглядит менее очевидно. Когда нагрузка распределена неравномерно: В итоге перегрев появляется не во всей системе, а в отдельных зонах. И сначала это выглядит ка