Во многих командах до сих пор существует убеждение:
если инженер постоянно проверяет оборудование, значит система под контролем и всё работает надёжно. На практике чаще всего происходит обратное.
Чем больше ручного контроля требуется, тем менее устойчива инфраструктура. Стабильная система — это не та, где «ничего не происходит».
Это та, где любые отклонения становятся заметны сразу и не требуют ручного поиска. Если инженер вынужден: значит инфраструктура работает на грани допустимого режима.
Даже если в данный момент все устройства онлайн и хешрейт выглядит нормально. Проблема в том, что без системных сигналов отклонения обнаруживаются слишком поздно — когда они уже успели повлиять на доход или стабильность. Стабильная инфраструктура — это управляемая инфраструктура.
В ней нет постоянной ручной суеты, потому что система сама подсказывает, где возникает проблема. Ключевые признаки такой стабильности: Большую часть времени ничего делать не нужно.
Инженер не «дежурит» у панели, а заним