О надёжности инфраструктуры обычно говорят через цифры: SLA, аптайм, резервирование, пиковые нагрузки.
Почти никогда — через состояние людей, которые за ней следят. А зря. Потому что один из самых недооценённых рисков — это обычная усталость инженера. И опасна она не тогда, когда человек «сломался» или уволился.
Опасна она задолго до этого — когда всё ещё работает, отчёты в порядке и внешне ничего критичного не происходит. Она редко проявляется резко.
Чаще всего это тихий процесс. Вместо явной ошибки появляются: Человек продолжает выполнять свои задачи.
Но глубина анализа снижается. И это происходит даже с опытными специалистами. Инженер в современной инфраструктуре работает в режиме постоянного фона: Мозг не предназначен для бесконечного мониторинга.
Он быстро адаптируется и начинает экономить ресурсы. Что это означает на практике? Человек не становится менее компетентным.
Он просто перегружен. Никто не просыпается с мыслью: «Сегодня я буду невнимателен». Усталость накапливается посте