Инцидент почти всегда начинается одинаково. Срабатывает мониторинг, прилетает алерт, в чате уведомление об инциденте и через минуту там уже с десяток людей. Присутствующие пытаются помочь (или делают вид), все пишут, предлагают решения, в то же время кто-то уже шатает кластер, кто-то шевелит витую пару под стулом, другой бегает в панике с валидолом под языком… С виду - активная работа, все вовлечены. По факту - шум. Опасность здесь даже не в потере времени, а потери будут и достаточно ощутимые. Но хуже другое. В хаосе начинаются параллельные правки и действия. Кто-то подкручивает конфиг, кто-то делает откат, кто-то деплоит «маленький фикс на всякий случай», кто-то добавляет правил на WAFе. Эти действия редко согласованы между собой, но почти всегда меняют состояние системы. В итоге локальный сбой легко превращается в более крупный непредсказуемый инцидент, уже с другим масштабом и последствиями. Где на постмортеме понять что было и как вышли из «штопора» тоже не понятно, но главное же
Инцидент - это проверка процесса, а не компетенций
7 января7 янв
2 мин