Ни для кого не секрет, что в современных организациях любых видов деятельности стабильность и надёжность информационных систем является критически важным фактором успешной работы. Даже час простоя торговой сети, или крупного распределительного склада может обернуться многомиллионными убытками. Как этого избежать? Для обеспечения высокого уровня ИТ-услуг, качество которых напрямую сказывается на работе всех информационных систем, применяются различные методологии, одной из которых является ITIL (Information Technology Infrastructure Library) — набор лучших практик в управлении ИТ-услугами. Одним из ключевых и увлекательнейших процессов ITIL является управление проблемами (Problem Management). "А что проблемами можно управлять?"- спросите вы. В данной статье мы порассуждаем на эту тему и постараемся разобраться как у всего найти первопричину, и что лучше - вылечить болезнь или бороться с симптомами.
Что такое инцидент?
Итак, начнем с простого. Прежде чем говорить об управлении проблемами, важно понять, что такое инцидент (Incident).
Инцидент — это любое незапланированное событие, которое приводит к нарушению или ухудшению качества ИТ-услуг. Главная цель при работе с инцидентами — как можно быстрее восстановить нормальное функционирование сервиса, чтобы минимизировать влияние на бизнес.
Как пример можно привести техническую поддержку крупной организации или IT-компании, которая обслуживает клиентов. Каждый день и час туда поступают обращения пользователей разного содержания. Как из них выделить инциденты? Это не так уж сложно. Любое обращение пользователя, либо событие связанное с тем, что пользователь не может пользоваться каким-либо ИТ-сервисом или качество этого сервиса резко ухудшилось, можно считать инцидентом.
Например:
- Пользователь не может войти в корпоративную почту.
- Веб-сайт компании временно недоступен.
- Принтер в офисе перестал печатать.
- CRM-система зависла и не отвечает на запросы.
И тут стоит отметить, что при инциденте не обязательно искать причину — техническая поддержка просто не может себе этого позволить, главное быстро вернуть всё в рабочее состояние (например, перезагрузить сервер, сбросить пароль, переподключить устройство). В этом заключается основная поддержки - управлять инцидентами (Incident Management). Получается что лечим симптомы, а болезнь игнорируем? На первый взгляд да, но не все так просто.
Что такое управление проблемами?
Итак, согласно определению, которое выдаст нам любой поисковик управление проблемами — это процесс, направленный на выявление, анализ и устранение причин инцидентов и потенциальных проблем в ИТ-инфраструктуре, чтобы предотвратить их повторное возникновение. Основная цель этого процесса — не просто устранить симптомы (как в случае с инцидентами), а найти корневую причину проблемы и устранить её раз и навсегда.
В методологии ITIL различают примерно так:
- Инцидент — что случилось (например, сервер упал).
- Проблема — почему это произошло (например, сервер упал из-за перегрева из-за неисправного вентилятора).
Таким образом, проблема — это неизвестная причина одного или нескольких инцидентов. Устранение проблемы позволяет предотвратить появление новых инцидентов и повышает стабильность ИТ-сервисов. Отлично, получается что раз причина неизвестна, и в наших рассуждениях должен появиться какой-то персонаж, который точно хорошо разбирается в причинно-следственных связях. Пойдемте узнаем кто это.
Менеджер по проблемам: ключевой архитектор стабильности ИТ-сервисов
Знакомьтесь:
Менеджер по проблемам (Problem Manager) — это специалист, отвечающий за стратегическое управление качеством и надёжностью ИТ-услуг. Его работа выходит за рамки простого наблюдателя — он фокусируется на глубоком анализе, предотвращении повторяющихся сбоев. В отличие от сотрудников службы поддержки, которые решают инциденты «здесь и сейчас», менеджер по проблемам должен смотреть на ситуацию шире: он ищет системные причины, выявляет закономерности и внедряет долгосрочные решения. Как он это делает? Давайте разберемся.
Только менеджер по проблемам занимается идентификацией и регистрацией проблем, являет миру то, что другие не замечали. Волшебник, не иначе!
Менеджер отслеживает повторяющиеся инциденты, жалобы пользователей, данные мониторинга и отчёты аналитики. Как только выявляется закономерность (например, 10 пользователей за неделю столкнулись с падением одного и того же сервиса), он инициирует процесс управления проблемой и регистрирует её, после этого все тайное становится явным.
Далее начинается анализ проблемы, на инструментах и методиках останавливаться не будем, но поверьте, это увлекательный и захватывающий процесс.
Например, если сервер падает каждый понедельник утром, менеджер может выяснить, что в это время запускается резервное копирование, которое перегружает систему. Менеджер не всегда сам устраняет проблему — он координирует действия других специалистов: системных администраторов, разработчиков, инженерного состава, дело может дойти даже до внешних поставщиков оборудования или ПО.
Когда корневая причина найдена, но решение ещё не реализовано (например, ждём обновления от вендора), проблема переводится в статус «известная ошибка». Менеджер по проблемам создаёт временные обходные пути и обеспечивает доступ к этой информации для службы поддержки, чтобы они могли быстрее реагировать на инциденты. А когда проблема устранена, проверяет правильность решения и готовит соответствующую отчетность.
Заключение
Общемировая практика развития показывает, что многие компании недооценивают эту роль, считая, что «главное — быстро закрывать инциденты». Но именно менеджер по проблемам снижает общее количество инцидентов, уменьшает стоимость поддержки (меньше обращений, меньше простоев) и повышает удовлетворённость пользователей. Он способствует росту доверия к ИТ-подразделению.
В зрелых ИТ-организациях менеджер по проблемам — не просто исполнитель, а советник по надёжности, который помогает строить ИТ-инфраструктуру, способную работать без сбоев.
Менеджер по проблемам — это не просто «человек, который копается в ошибках». Он — инженер стабильности, аналитик рисков, координатор решений и защитник качества ИТ-услуг. Его работа лежит в основе перехода от реактивного к проактивному управлению ИТ.
В эпоху, когда простои могут стоить миллионов, а пользователи ожидают бесперебойной работы сервисов 24/7, наличие компетентного менеджера по проблемам — не прихоть, а необходимое условие зрелости ИТ-организации.
Идеальный ИТ-сервис — тот, о котором пользователи не вспоминают.
А менеджер по проблемам — тот, кто делает это возможным.