Большой инцидент заканчивается не тогда, когда сервис подняли. Он заканчивается, когда компания не только подняла сервис, но и разобрала причину, назначила меры и дотащила их до результата. Большой инцидент - это не размер сбоя. Это цена последствий для бизнеса. Когда встают кассы, склад или сайт, почти везде начинается один и тот же ритуал. Чат на 30 человек. Инженеры ищут причину. Руководители хотят прогноз. Бизнес не понимает, можно ли работать дальше. Деньги уходят. А решения никто не собирает в одну точку. Я видел это очень предметно. В одном контуре техническая проблема лечилась меньше часа. Но при разборе картина оказалась другой: дольше всего жили не ошибка в системе, а согласования, параллельные команды и отсутствие человека с правом командовать восстановлением. В большой аварии сначала нужен не поиск виноватого. Нужен единый командир инцидента. Тот, кто принимает решения, коммуницирует и контролирует. Кто останавливает лишние изменения, назначает владельцев и даёт бизнесу оди
Большой инцидент: кто должен руководить, когда кассы, склад или сайт уже стоят
21 апреля21 апр
1 мин