Ошибки - это не катастрофа. Сервер упал, дедлайн сдвинулся, ключевой человек ушел в отпуск - ничего страшного. Страшно, когда после этого все начинают метаться. В одних командах сразу начинается пожар: созвоны, крики, поиски виноватых, переписки в сотни сообщений. В других - тишина. Люди просто чинят, договариваются и продолжают работать. Разница не в опыте, разница в устойчивости. Resilience - это не про “все идеально”. Это про “мы не посыпались, даже когда все пошло наперекосяк”. Кто-то заболел - остальная команда подхватила. Приоритеты поменялись - не растерялись, а пересобрали план. Релиз сорвался - не ищем виноватого, а разбираем, почему система не выдержала. Как развивать устойчивость: - Проводи не «разбор полетов», а разбор сбоев - без обвинений, только выводы. - Делай маленькие эксперименты. Чем чаще система “спотыкается” в безопасных условиях, тем крепче становится. - Говори не только о результатах, но и о том, что пошло не так и чему это научило. - Создавай запас - в сроках,
Resilience Engineering: как сделать так, чтобы проект не развалился при первом сбое
17 октября17 окт
~1 мин