Найти в Дзене
Цифровая Переплавка

Как «скрытые сбои» могут стать ключом к повышению надёжности

В любой организации принято, что громкие и серьёзные инциденты становятся главными «звёздами» для анализа. Ведь чем больше ущерб, тем больше шума, времени и ресурсов на расследование. Однако, как указывает Лорин Хохстайн (Lorin Hochstein) в своей статье «You’re missing your near misses», опасность кроется в другом: мы забываем о «скрытых сбоях», то есть тех ситуациях, когда по счастливому стечению обстоятельств катастрофа не произошла. Под "скрытыми сбоями" понимается событие, которое при малейшем изменении условий могло превратиться в полномасштабную аварию. Например, если бы на сервере не сработала защита, или если бы один из инженеров не заметил сбой в нужный момент, мы бы получили большой инцидент. Но когда проблема не достигает уровня реального коллапса, она часто теряется в информационном шуме: 🔎 Меньше людей знают о проблеме: нет «горящих» созвонов, нет статусов для руководства.
🔎 Нулевая «степень серьёзности» по метрикам: формально последствий нет, значит, организация не счит
Оглавление

В любой организации принято, что громкие и серьёзные инциденты становятся главными «звёздами» для анализа. Ведь чем больше ущерб, тем больше шума, времени и ресурсов на расследование. Однако, как указывает Лорин Хохстайн (Lorin Hochstein) в своей статье «You’re missing your near misses», опасность кроется в другом: мы забываем о «скрытых сбоях», то есть тех ситуациях, когда по счастливому стечению обстоятельств катастрофа не произошла.

🏷️ Что такое «скрытые сбои» (near misses) и почему они важны

Под "скрытыми сбоями" понимается событие, которое при малейшем изменении условий могло превратиться в полномасштабную аварию. Например, если бы на сервере не сработала защита, или если бы один из инженеров не заметил сбой в нужный момент, мы бы получили большой инцидент.

Но когда проблема не достигает уровня реального коллапса, она часто теряется в информационном шуме:

🔎 Меньше людей знают о проблеме: нет «горящих» созвонов, нет статусов для руководства.
🔎
Нулевая «степень серьёзности» по метрикам: формально последствий нет, значит, организация не считает инцидент критическим.
🔎
Меньше приоритета на разбор: ресурсы по умолчанию идут на «тушение пожаров», а «почти-пожар» никто не спешит разбирать глубоко.

Однако именно неповторяющиеся (уникальные) инциденты чаще всего приносят неожиданный ущерб. Скрытые сбои могут быть предвестниками подобных новаторских «ошибок будущего».

🌐 Опыт авиации и «безопасных» индустрий

В заметке упоминается FAA (Федеральное управление гражданской авиации США), которое публикует данные о почти-столкновениях самолётов. В авиации, где ошибки критически опасны для жизни людей, любой «скрытый сбой» рассматривается с особым вниманием. На основе этих данных создаются:

✈️ Базы инцидентов (включая скрытые сбои)
✈️
Программы обучения лётчиков и диспетчеров
✈️
Обязательные отчёты (ASRS), где специалисты делятся информацией о «скрытых сбоях»

Для IT-сферы логика та же: если мы игнорируем подобные «скрытые сбои», то будущий «кризис» может застать нас врасплох.

🤔 Почему мы «пропускаем» скрытые сбои в IT

У каждой команды обычно достаточно задач и проблем, чтобы не тратить ресурсы на «что-то, что и так не сломалось». Кроме того:

🚀 Организационная динамика: если инцидент не причинил зримого урона, топ-менеджмент не увидит повода вкладывать время и деньги в разбор.
🚀
Метрики «серьёзности» основаны на ущербе: ущерб = 0, значит инцидента «нет».
🚀
Непрослеживаемость: часто только несколько инженеров знают, что «чуть не грохнулось». Остальные в организации могут быть не в курсе.

В итоге мы рискуем: эти «почти» инциденты не даёт повода для улучшений и превентивных мер.

🏗️ Как эффективно работать со скрытыми сбоями

Любая команда не может и не должна тратить столько же сил, как при разборе реальной катастрофы. Нужно искать баланс:

🔔 Фильтрация:

  • 🏆 Ищем скрытые сбои, которые выглядят «хоть чуть-чуть» новыми или неожиданными.
  • 🚦 Пропускаем ситуации, которые уже хорошо описаны существующими процедурными мерами.

🔍 Формализованная подача:

  • 💬 Создайте внутри команды простую форму или канал, где каждый может отметить «Осталось два шага до полной аварии».
  • ✅ Важно закрепить культуру, где за раскрытие скрытых сбоев сотрудник получает благодарность, а не упрёк.

🎯 Выстраивание приоритетов:

  • 🗂️ «Высокая ценность» скрытых сбоев — когда команда подозревает, что такая ситуация легко может повториться при чуть иных условиях.
  • 👨‍💻 «Низкая ценность» скрытых сбоев— когда это исключительное совпадение, маловероятное в будущем.

🛠️ Технические детали и альтернативные сценарии

Как отмечает Хохстайн, скрытые сбои всегда имеет элемент «альтернативного сценария»: «представьте, если бы что-то пошло чуть иначе». Хотя мы не приветствуем спекуляции вроде «а что, если бы», здесь это оправдано для выявления потенциального риска.

  • 🧮 Лог-файлы и мониторинг: анализируем аномалии в логах, которые не повлекли серьёзных сбоев, но «резко скакнули» метрики.
  • 🏷️ Теги в системах инцидентов (Jira, ServiceNow и др.): создание отдельного типа задачи «Скрытые сбои» с атрибутами «какие условия были бы фатальными?».
  • 📊 Дашборды наблюдения: Если внедрять «сигналы раннего оповещения», скрытые сбои могут стать поводом изменением уровня тревоги (alerting) и границ SLA.

🎉 Культурный сдвиг: цена и выгода

Чтобы скрытые сбои «засветились», необходимо изменить привычный образ мышления в команде.

  • Мотивация: Поощрять сотрудников за сообщение «почти-инцидента», а не ругать за «паникёрство».
  • Обучение: Периодически рассказывать кейсы таких скрытых инцидентов на командных митингах, показывать, чему научились.
  • Баланс: При этом не загромождать расписание бесконечными «псевдо-ретро». Нужно аккуратно выбирать самые ценные случаи.

Ссылка на оригинальную статью

Итог: «Чуть не случилась авария» — это не повод забыть и бежать дальше. Именно такие моменты могут дать нам возможность предотвратить новые, действительно серьёзные инциденты. Инженерам и менеджерам не стоит полагаться только на «постфактум разбор катастроф»; настало время обратить внимание на «пограничные сигналы» — ведь часто они ценнее любых отчётов о громком фиаско.