Найти в Дзене
REPLY-TO-ALL Information Security Blog

КПЭ операционного аналитика

Работа операционной команды по части обработки алертов, как правило, хорошо логгируется, что позволяет вычислять различные метрики, на основании которых можно делать различные выводы, например, о загрузке команды. Помимо метрик для отслеживания тенденций, полезно иметь и КПЭ, которые следует измерять периодически, и на их основании, например, принимать решения о переводе аналитика на новую позицию или в новую роль. В этой статье поделюсь имеющимся опытом по части формальных КПЭ на обработку алертов. Как я отмечал в докладе про метрики на PHD2023, мы их собираем еженедельно. КПЭ основаны на этих недельных числах для аналитиков. Нормативы на каждый вид работы - замечательная вещь, они у нас есть, и я как-нибудь об этом напишу, но если их нет, то можно исходить из средних значений по команде. Если команда достаточно большая, то выбор средних или медианных значений в качестве нормативов работает хорошо. Выбор между средним и медианным зависит от распределения конкретного параметра. Если ра

Работа операционной команды по части обработки алертов, как правило, хорошо логгируется, что позволяет вычислять различные метрики, на основании которых можно делать различные выводы, например, о загрузке команды. Помимо метрик для отслеживания тенденций, полезно иметь и КПЭ, которые следует измерять периодически, и на их основании, например, принимать решения о переводе аналитика на новую позицию или в новую роль. В этой статье поделюсь имеющимся опытом по части формальных КПЭ на обработку алертов.

Как я отмечал в докладе про метрики на PHD2023, мы их собираем еженедельно. КПЭ основаны на этих недельных числах для аналитиков. Нормативы на каждый вид работы - замечательная вещь, они у нас есть, и я как-нибудь об этом напишу, но если их нет, то можно исходить из средних значений по команде. Если команда достаточно большая, то выбор средних или медианных значений в качестве нормативов работает хорошо. Выбор между средним и медианным зависит от распределения конкретного параметра. Если распределение - прямая линия, то можно взять среднее, если оно сильно выгнуто, то медианное будет лучше отражать работу большинства. Если в распределении каких-то значений наблюдаются единичные выбросы, то можно от них избавиться (на практике, конечно, следует разобраться почему так произошло: аналитик забыл или какая-то проблема в работе инфраструктуры), например, заменив на среднее или медианное, или просто исключить, чтобы они не оттянули среднее значение на себя. В общем, данные, скорее всего, придется чистить и готовить (если эта тема интересна пишите в комментариях к заметке с этой статьей в Телеграм, распишу).

Но вернемся к Ключевым показателям эффективности (КПЭ) или по-нерусски - Key performace indicatiors (KPI). Мы выделяем следующие уровни:

  • SE - significantly exceed expectation - работает еще лучше, чем EE
  • EE - exceed expectation - работает лучше, чем ожидается
  • ME - meet expectation - работает, как положено в соответствии с ожиданиями
  • NM - not meet expectation - работает хуже
  • SM - significantly not meet expectation - работает еще хуже

КПЭ не должно быть много, они должны отражать наиболее значимые перспективы работы, быть SMART.

Для MDR наиболее важная перспектива - выполнение обязательств перед пользователями по части скорости реакции и качества предоставляемых результатов, поэтому КПЭ вы выбрали:

  • Доля инцидентов с соблюдением SLA - та же метрика, что указана в обязательствах перед заказчиком
  • Доля алертов, обработанных с соблюдением SLA - внутренняя метрика, выполнение которой необходимо для выполнения метрики по инцидентам
  • Вклад - количество инцидентов с учетом критичности, опубликованных заказчикам
  • Количество ошибок в опубликованных инцидентах - по результатам перепроверки
  • Количество выполненых перепроверок - сколько раз аналитик сам был в роли перепроверяющего
  • Количество прямых эскалаций от заказчиков по вине аналитика

Перед окончательной табличкой с КПЭ и целевыми значениями поясню классификацию эскалаций от заказчиков. Мы различаем три уровня эскалаций:

  • Высокая - влияет на имидж всей Компании, откровенная халатность со стороны аналитика, грубое нарушение внутренних инструкций
  • Средняя - влияет на имидж подразделения, логика аналитика понятна (== не халатность), грубых нарушений внутренних инструкций аналитиком не выявлено, но были все возможности эскалации избежать, но аналитик их упустил
  • Низкая - небольшая неприятность, рабочая ситуация, есть объективное обоснование решения аналитика

Приведенная классификация критичности эскалаций не лишена субъективности, поэтому оценка производится коллегиально в рамках разбора эскалации (внутренний "Lessons learned").

Пример КПЭ аналитиков с целевыми показателями
Пример КПЭ аналитиков с целевыми показателями

Таблица, представленная на изображении, доступна по ссылке.

КПЭ о SLA вычисляются по абсолютным значениям. Обозначения диапазонов аналогичны школьным: (a, б] - означает диапазон от а до б, при этом значение а исключается из диапазона, но б - включается в диапазон.

Вклад, Перепроверки и Ошибки считаются в сравнении с работой команды в целом: medium - среднее (или медианное) значение по команде, highest и lowest - максимальное и минимальное.

Средние и крайние значения по команде считаются за период неделя, а сами КПЭ подсчитываются за квартал.