Добавить в корзинуПозвонить
Найти в Дзене
Блог проекта HubEx

Четыре важные метрики инцидентов

Время простоя может стоить предприятию сумасшедших денег. Потому метрики инцидентов служат хорошей основой для понимания, как, когда и почему происходят определенные сбои и как их предотвратить. Разработка эффективной практики анализа инцидентов помогает компаниям выявлять системные проблемы. Разберем 4 весьма полезных аббревиатуры: MTBF, MTTR, MTTF, MTTA. Что такое управление инцидентами Управление инцидентами является важной частью общего менеджмента производственных заказов и включает в себя набор принципов, которым необходимо следовать, если обычные бизнес-операции прерываются из-за незапланированного сбоя. Различные инциденты могут по-своему влиять на бизнес. В результате простоев и сбоев возникают задержки платежей, срывы сроков реализации проектов, подрыв деловой репутации и недовольство клиентов. Наличие четкого процесса управления инцидентами поможет организациям быстрее решать проблемы, сократить расходы из-за простоев и обеспечить лучшее качество обслуживания. Важность показ

Время простоя может стоить предприятию сумасшедших денег. Потому метрики инцидентов служат хорошей основой для понимания, как, когда и почему происходят определенные сбои и как их предотвратить. Разработка эффективной практики анализа инцидентов помогает компаниям выявлять системные проблемы. Разберем 4 весьма полезных аббревиатуры: MTBF, MTTR, MTTF, MTTA.

Что такое управление инцидентами

Управление инцидентами является важной частью общего менеджмента производственных заказов и включает в себя набор принципов, которым необходимо следовать, если обычные бизнес-операции прерываются из-за незапланированного сбоя.

Различные инциденты могут по-своему влиять на бизнес. В результате простоев и сбоев возникают задержки платежей, срывы сроков реализации проектов, подрыв деловой репутации и недовольство клиентов.

Наличие четкого процесса управления инцидентами поможет организациям быстрее решать проблемы, сократить расходы из-за простоев и обеспечить лучшее качество обслуживания.

Важность показателей управления инцидентами

Выбор показателей управления инцидентами или KPI (ключевых показателей эффективности) помогает менеджерам по техническому обслуживанию определить, достигают ли они своих целей. Эти метрики следует включить в контрольный список сервиса активов для оценки эффективности команды в том числе.

Список наиболее распространенных показателей инцидентов включает:

  • MTBF (Mean Time Before Failure), среднее время безотказной работы;
  • MTTR (Mean Time to Recovery, Repair, Respond, or Resolve), среднее время восстановления , ремонта , ответа или разрешения;
  • MTTF (Mean Time to Failure) среднее время до отказа;
  • MTTA (Mean Time to Acknowledge) среднее время подтверждения.

Примечание о MTTR: ​​хотя это звучит как одна метрика, она представляет четыре разные вещи и значения. Следовательно, при настройке MTTR важно точно знать, что именно измеряет команда.

Теперь, когда определены метрики, углубимся в то, что они из себя представляют, как рассчитываются и когда их следует использовать.

Что такое MTBF, как его рассчитать и когда его использовать

Среднее время до отказа рассчитывает продолжительность периода между ремонтами и сбоями оборудования. Цель — понять, насколько надежна техника. MTBF также измеряет, как долго оборудование можно эксплуатировать. Чем выше время между отказами, тем надежнее система.

Расчет MTBF включает получение данных за определенный период, например 6 месяцев, а затем деление времени безотказной работы системы на общее количество произошедших сбоев.

MTBF идеально подходит для систем, которые можно ремонтировать в случае поломки. Этот метод используется для предприятий, где простой может привести к ущербу, например, к гибели людей (воздушные суда или производственное оборудование с высокой степенью риска).

Информация, собранная для расчета MTBF, также полезна для внутренних команд при выработке рекомендаций относительно планового технического обслуживания, замены деталей и модернизации.

Что такое MTTR, как рассчитывается и когда используется

MTTR охватывает среднее время ремонта, восстановления, разрешения и реагирования. Что означает каждая из этих метрик с точки зрения управления объектами?

Среднее время ремонта — период, необходимый для восстановления работоспособности системы. Сюда входит и тестирование. Эта метрика рассчитывается путем измерения общего времени, затраченного на ремонт системы за определенный период, а затем деления полученного результата на количество ремонтов, проведенных за этот период.

Эта метрика не способна распознать необходимость починки до ее возникновения или выявить потенциальные проблемы в системе. Среднее время ремонта используется только для оценки эффективности работы технических специалистов. Это помогает персоналу отслеживать предстоящие операции по исправлению неполадок. В идеале, чем ниже этот показатель, тем лучше для компании.

Среднее время восстановления

Это период, необходимый для восстановления системы до исходного состояния. Он включает в себя время бездействия системы и ее восстановления. Показатель рассчитывается путем сложения всего отрезка простоя за определенный период, деленного на количество инцидентов, которые привели к сбою.

Эта метрика рассчитывает скорость всего процесса восстановления системы и помогает сравнить ее с определенными целями, а также со средним показателем у конкурентов.

Тем не менее, чтобы понять другие переменные, такие как время между сбоем и предупреждением, эффективность команды обслуживания или проблему с процессом диагностики, требуется сбор более глубоких данных.

Промежуток времени для решения

Это среднее время, необходимое для устранения сбоя от начала до конца, включая идентификацию, диагностику, ремонт и принятие мер для предотвращения повторения инцидента. По сути, это требует, чтобы технические бригады сделали еще один шаг, помимо простого процесса восстановления.

Этот показатель рассчитывается путем суммирования полного времени, затраченного на решение проблем, возникших за определенный период, и деления на количество инцидентов. Также важно отметить, что эта метрика требует учета рабочих, а не сверхурочных часов.

Также важно отметить, что среднее время устранения рассчитывается для экстренных сбоев, а не для запланированных работ по техническому обслуживанию.

Среднее время реагирования

Это среднее время, необходимое для восстановления системы после сбоя с момента первого предупреждения. Он рассчитывается путем деления общего периода реакции от сбоя до починки на количество раз, когда инцидент имел место в течение заданного отрезка.

Что такое MTTA, как рассчитывается и когда используется

Среднее время до подтверждения позволяет оценить, насколько оперативно реагируют команды технического обслуживания. Оно рассчитывается путем суммирования отрезка между оповещением и подтверждением неисправности за определенный период. Затем общая величина делится на количество инцидентов, произошедших за этот интервал.

Что такое MTTF, как рассчитывается и когда используется

Среднее время до отказа просто измеряет среднее время между одним сбоем и следующим. Цель состоит в том, чтобы сделать этот показатель как можно больше.

Эта метрика помогает рассчитать, как долго должна прослужить система, и составить соответствующее расписание профилактического обслуживания. Ее получают путем вычисления суммарного времени работы оцениваемых устройств, разделенного на общее количество приборов.

Например, вы проверяете аккумуляторы дымовой сигнализации в здании. Батарея типа А работает 18 часов, типа B — 20 часов, типа C— 22 часа, а типа D — 24 часа. Таким образом, общее время составляет 84 часа и делится на 4. Стало быть, MTTF составляет 21 час.

Как выбрать правильные показатели инцидентов для вашей компании

Выбор правильных показателей инцидентов зависит от ряда факторов, в том числе от того, о какой отрасли идет речь, и каковы потребности обитателей управляемого объекта. Поставщики выездных услуг помогут настроить метрики сбоев для рассматриваемого актива.

Вот несколько шагов к связыванию метрик инцидентов с удовлетворенностью клиентов:

Составьте карту пути пользователя. Это поможет определить, что для клиента важнее всего. Задайте вопросы, например, что замедляет процесс, что больше всего раздражает и на какое оборудование или системы они больше всего полагаются. Руководители объектов могут сделать это, напрямую поговорив с пользователями, и даже с теми, кто в прошлом отвечал за ремонт.

Определите показатели уровня обслуживания. Понимание того, что ваши клиенты считают наиболее ценным, поможет определить, какие данные лучше всего соответствуют потребностям людей и какие сведения вы должны собирать.

Установите цели уровня обслуживания (SLO) для болевых точек клиентов. Спросите людей, какие инциденты были бы для них неприемлемыми. Их следует проанализировать с точки зрения влияния сбоя на удовлетворенность клиентов. Кроме того, их необходимо оценить с точки зрения "бюджета ошибок" и того, насколько критичен тот или иной инцидент и как он влияет на надежность системы.

Создание ретроспективы инцидента

Управление инцидентами - это постоянное обучение на основе новых данных. Метрики происшествий дают ценное представление о ряде факторов, и с их помощью можно в значительной степени избежать будущих аварий. Это называется ретроспективой инцидента, когда вы разбираете происшествие и превращаете опыт в знания.

По мере того, как организации совершенствуют свой анализ инцидентов, со временем развиваются и их ответные меры.

Идеальная ретроспектива должна включать следующее:

  • Краткое, но полное описание происшествия.
  • Факторы, вызвавшие его, с использованием утверждений «потому что» и «почему».
  • Влияние инцидента на потребителей, включая степень их общей удовлетворенности.
  • Какие последующие действия были предприняты в ответ на инцидент и для обеспечения минимизации подобных ситуаций в будущем.
  • Описание действий должно быть таким, будто вы рассказываете историю. В нем будут упомянуты все люди, участвовавшие в выявлении инцидента и принятии мер.
  • Изложите хронологию всего инцидента, включая использование скриншотов и журналов.
  • Проведите технический анализ инцидента, включая ошибки или недоработки и факторы, зависящие друг от друга.
  • Проведите анализ процесса, как инцидент был урегулирован и что пошло не так.
  • Задокументируйте общение между ключевыми сотрудниками во время инцидента.
  • Убедитесь, что ретроспектива создана в течение 48 часов после инцидента, и храните отчеты таким образом, чтобы к ним можно было легко получить доступ, если подобный случай произойдет в будущем.

Заключение

Помните, что управление инцидентами всегда должно быть направлено на извлечение уроков из неудач и совместную работу по минимизации аварий, которые могут нанести ущерб удовлетворенности клиентов.

Любое обсуждение после происшествия не должно осуждать отдельных лиц, а восприниматься как возможность улучшить процессы в будущем.