Мои коллеги часто говорят мне: «Нам не хватает инженеров». А я каждый раз ловлю себя на мысли, что будто бы если добавить ещё одного человека, факапы должны исчезнуть. Каждый квартал я сознательно провожу небольшой эксперимент, который называю «неделей безделья». Это не про отдых и не про халатность. В течение недели инженеры не выполняют никаких профилактических или плановых работ. Нет изменений на серверах, сети или сервисах. Команда реагирует только на заявки высокого приоритета от пользователей и реальные инциденты. Системы в период недели безделья живут своим обычным ритмом. А я наблюдаю не за людьми, а за тем, как инфраструктура ведёт себя без постоянного ручного вмешательства. Для меня это простой и наглядный способ проверить, могут ли системы работать автономно или они требуют непрерывной поддержки со стороны инженеров. В такие периоды становится понятно, где инфраструктура действительно устойчива, а где она держится на постоянном внимании людей. И если без подкручивания всё