В любой организации принято, что громкие и серьёзные инциденты становятся главными «звёздами» для анализа. Ведь чем больше ущерб, тем больше шума, времени и ресурсов на расследование. Однако, как указывает Лорин Хохстайн (Lorin Hochstein) в своей статье «You’re missing your near misses», опасность кроется в другом: мы забываем о «скрытых сбоях», то есть тех ситуациях, когда по счастливому стечению обстоятельств катастрофа не произошла.
🏷️ Что такое «скрытые сбои» (near misses) и почему они важны
Под "скрытыми сбоями" понимается событие, которое при малейшем изменении условий могло превратиться в полномасштабную аварию. Например, если бы на сервере не сработала защита, или если бы один из инженеров не заметил сбой в нужный момент, мы бы получили большой инцидент.
Но когда проблема не достигает уровня реального коллапса, она часто теряется в информационном шуме:
🔎 Меньше людей знают о проблеме: нет «горящих» созвонов, нет статусов для руководства.
🔎 Нулевая «степень серьёзности» по метрикам: формально последствий нет, значит, организация не считает инцидент критическим.
🔎 Меньше приоритета на разбор: ресурсы по умолчанию идут на «тушение пожаров», а «почти-пожар» никто не спешит разбирать глубоко.
Однако именно неповторяющиеся (уникальные) инциденты чаще всего приносят неожиданный ущерб. Скрытые сбои могут быть предвестниками подобных новаторских «ошибок будущего».
🌐 Опыт авиации и «безопасных» индустрий
В заметке упоминается FAA (Федеральное управление гражданской авиации США), которое публикует данные о почти-столкновениях самолётов. В авиации, где ошибки критически опасны для жизни людей, любой «скрытый сбой» рассматривается с особым вниманием. На основе этих данных создаются:
✈️ Базы инцидентов (включая скрытые сбои)
✈️ Программы обучения лётчиков и диспетчеров
✈️ Обязательные отчёты (ASRS), где специалисты делятся информацией о «скрытых сбоях»
Для IT-сферы логика та же: если мы игнорируем подобные «скрытые сбои», то будущий «кризис» может застать нас врасплох.
🤔 Почему мы «пропускаем» скрытые сбои в IT
У каждой команды обычно достаточно задач и проблем, чтобы не тратить ресурсы на «что-то, что и так не сломалось». Кроме того:
🚀 Организационная динамика: если инцидент не причинил зримого урона, топ-менеджмент не увидит повода вкладывать время и деньги в разбор.
🚀 Метрики «серьёзности» основаны на ущербе: ущерб = 0, значит инцидента «нет».
🚀 Непрослеживаемость: часто только несколько инженеров знают, что «чуть не грохнулось». Остальные в организации могут быть не в курсе.
В итоге мы рискуем: эти «почти» инциденты не даёт повода для улучшений и превентивных мер.
🏗️ Как эффективно работать со скрытыми сбоями
Любая команда не может и не должна тратить столько же сил, как при разборе реальной катастрофы. Нужно искать баланс:
🔔 Фильтрация:
- 🏆 Ищем скрытые сбои, которые выглядят «хоть чуть-чуть» новыми или неожиданными.
- 🚦 Пропускаем ситуации, которые уже хорошо описаны существующими процедурными мерами.
🔍 Формализованная подача:
- 💬 Создайте внутри команды простую форму или канал, где каждый может отметить «Осталось два шага до полной аварии».
- ✅ Важно закрепить культуру, где за раскрытие скрытых сбоев сотрудник получает благодарность, а не упрёк.
🎯 Выстраивание приоритетов:
- 🗂️ «Высокая ценность» скрытых сбоев — когда команда подозревает, что такая ситуация легко может повториться при чуть иных условиях.
- 👨💻 «Низкая ценность» скрытых сбоев— когда это исключительное совпадение, маловероятное в будущем.
🛠️ Технические детали и альтернативные сценарии
Как отмечает Хохстайн, скрытые сбои всегда имеет элемент «альтернативного сценария»: «представьте, если бы что-то пошло чуть иначе». Хотя мы не приветствуем спекуляции вроде «а что, если бы», здесь это оправдано для выявления потенциального риска.
- 🧮 Лог-файлы и мониторинг: анализируем аномалии в логах, которые не повлекли серьёзных сбоев, но «резко скакнули» метрики.
- 🏷️ Теги в системах инцидентов (Jira, ServiceNow и др.): создание отдельного типа задачи «Скрытые сбои» с атрибутами «какие условия были бы фатальными?».
- 📊 Дашборды наблюдения: Если внедрять «сигналы раннего оповещения», скрытые сбои могут стать поводом изменением уровня тревоги (alerting) и границ SLA.
🎉 Культурный сдвиг: цена и выгода
Чтобы скрытые сбои «засветились», необходимо изменить привычный образ мышления в команде.
- Мотивация: Поощрять сотрудников за сообщение «почти-инцидента», а не ругать за «паникёрство».
- Обучение: Периодически рассказывать кейсы таких скрытых инцидентов на командных митингах, показывать, чему научились.
- Баланс: При этом не загромождать расписание бесконечными «псевдо-ретро». Нужно аккуратно выбирать самые ценные случаи.
Ссылка на оригинальную статью
Итог: «Чуть не случилась авария» — это не повод забыть и бежать дальше. Именно такие моменты могут дать нам возможность предотвратить новые, действительно серьёзные инциденты. Инженерам и менеджерам не стоит полагаться только на «постфактум разбор катастроф»; настало время обратить внимание на «пограничные сигналы» — ведь часто они ценнее любых отчётов о громком фиаско.