Найти в Дзене

Трасса E95

Точнее P95. Почему "средняя температура по больнице" вас обманывает и нужен 95-й перцентиль 🎯 Когда пишут "среднее время поездки в аэропорт = 1 час" — это звучит неплохо. Но вот загвоздка: в жизни и в ИБ это ничего не значит! У нас есть куча быстро решаемых инцидентов и пара затяжных кошмаров. Да, ты всегда вовремя успевал на самолет, а теперь уже 2 часа стоишь в пробке. Знакомо? Бьют по жизни и бизнесу именно редкие всплески. Например, остановка сервисов на сутки, потери больших объемов данных. Что такое P95? Это значение метрики, которое 95% имеющихся случаев не превышают. То есть в 95 случаях из 100 всё "не хуже" этого значения, а в 5% — хуже. Вот эти 5% — и есть проблемный хвост. Почему P95 важнее среднего? Среднее говорит: "сколько обычно" P95 говорит: "насколько плохо бывает, когда день не задался" P95 показывает типичный плохой сценарий — тот уровень, который команда должна суметь выдержать. 📊Пример из жизни 20 инцидентов за месяц: 🔹19 закрыли за 1 час 🔹1 закрыли за 24 ч

Трасса E95. Точнее P95. Почему "средняя температура по больнице" вас обманывает и нужен 95-й перцентиль 🎯

Когда пишут "среднее время поездки в аэропорт = 1 час" — это звучит неплохо. Но вот загвоздка: в жизни и в ИБ это ничего не значит! У нас есть куча быстро решаемых инцидентов и пара затяжных кошмаров. Да, ты всегда вовремя успевал на самолет, а теперь уже 2 часа стоишь в пробке. Знакомо? Бьют по жизни и бизнесу именно редкие всплески. Например, остановка сервисов на сутки, потери больших объемов данных.

Что такое P95?

Это значение метрики, которое 95% имеющихся случаев не превышают. То есть в 95 случаях из 100 всё "не хуже" этого значения, а в 5% — хуже. Вот эти 5% — и есть проблемный хвост.

Почему P95 важнее среднего?

Среднее говорит: "сколько обычно"

P95 говорит: "насколько плохо бывает, когда день не задался"

P95 показывает типичный плохой сценарий — тот уровень, который команда должна суметь выдержать.

📊Пример из жизни

20 инцидентов за месяц:

🔹19 закрыли за 1 час

🔹1 закрыли за 24 часа

Среднее = 2,15 часа (вроде норм?)

Максимум = 24 часа (вот где боль!)

Вывод: среднее успокаивает, а реализованный риск находится в статистическом выбросе.

Где применять P95 в метриках ИБ

✔️ MTTD P95 — сколько в плохих случаях не видим атаку

✔️ Time-to-Contain P95 — сколько времени у атакующего на разгон

✔️ MTTR P95 — насколько затяжными бывают инциденты

✔️ RTO P95 — реальное время восстановления в сложных случаях

✔️ Patch lead time P95 — сколько реально уходит на закрытие критичных дыр

Плюс держим в уме Maximum — самый худший случай периода (каждый = разбор полётов).

Связка с бизнесом 💼

Если бизнес говорит: "простой больше 60 минут = катастрофа", то цель не "в среднем 60 минут". Цель:

P95 downtime ≤ 60 минут

(в 95% случаев укладываемся)

А случаи выхода за лимит если есть, то их разбираем и устраняем причины.

Что показывать руководству

Показываем: P95 + MAX + тренд

Среднее — можно для справки, но не как главный показатель успеха.

Коротко:

P95 нужен, чтобы видеть "плохие случаи" из хвоста распределения, которые среднее успешно маскирует ✨

⚠️ Когда P95 лучше НЕ показывать

Если кейсов мало (например, 5–20 high-severity инцидентов в месяц), P95 часто превращается в “математический артефакт”: одна редкая жесть — и цифра выглядит странно, а объяснять её приходится формулами.

✅ Что показывать вместо P95 (для руководства)

Доля в SLA: “19 из 20 закрыли ≤ 4 часов”

MAX: “самый долгий — 24 часа”

1–2 исключения: причина → вывод → что поменяли (процессы/доступы/резервирование/автоматизация)

Правило одной строкой

Мало событий → показываем долю в SLA + MAX + разбор исключений.

Много событий → можно добавлять P95/P99.

#Определения #CISO