Как понять, что инфраструктура работает стабильно — без постоянного вмешательства
Во многих командах до сих пор существует убеждение: если инженер постоянно проверяет оборудование, значит система под контролем и всё работает надёжно. На практике чаще всего происходит обратное. Чем больше ручного контроля требуется, тем менее устойчива инфраструктура. Стабильная система — это не та, где «ничего не происходит». Это та, где любые отклонения становятся заметны сразу и не требуют ручного поиска. Если инженер вынужден: значит инфраструктура работает на грани допустимого режима. Даже если в данный момент все устройства онлайн и хешрейт выглядит нормально...