2648 подписчиков

Комплексный мониторинг ИТ-инфраструктуры

17 апреля 202017 апр 2020

6 мин

Специалисты проанализировали проблему установки системы контроля стандартизированных параметров корпоративной инфраструктуры. В нашем материале мы рассмотрим данную тему более подробно.

Любая сложная деятельность независимо от сферы ее корпоративного применения, делится на составляющие – процессы, компоненты, задачи. В целом, деятельность предприятия может являться успешной только в том случае, когда все ее составляющие и части работают должным образом. Для того, чтобы быть уверенными в качестве функционирования каждой из составляющих, необходимо постоянное наблюдение за ней, будь то сотрудник предприятия, отдельный бизнес-процесс, либо узел каждого устройства.

Если во время наблюдения будет проявляться определенное отклонение функционирования одной из составляющих от нормы, необходимо провести такое комплексное воздействие, которое позволит вернуть работу данной составляющей в норму. С данной позиции может рассматриваться и ключевая ИТ-инфраструктура предприятия. В качестве просто примера может рассматриваться и ИТ-инфраструктура компании–серверная (вычислительная) среда, среда хранения данных и среда передачи данных. Какие параметры являются наиболее актуальными для каждой из данных компонент?

Для вычислительной среды наиболее актуальный критерий – это потенциальная степень загрузки. Для среды хранения – наличие необходимого свободного пространства, для среды передачи данных – наличие достаточной пропускной способности. Исходя из указанных критериев, может выстраиваться ряд специализированных параметров, при помощи которых будет комплексно контролироваться работа каждого ключевого компонента. Для вычислительной среды данные параметры представляют собой процент загрузки процессоров и оперативной памяти.

Для среды хранения данных – объем занятого и свободного дискового пространства на каждом из логических разделов. для среды передачи данных-текущая скорость передачи данных и наличие ошибок во время передачи. Для того, чтобы поддерживать работоспособность на необходимом уровне для каждого параметра задается комплексный диапазон значений. выход значения параметра из данного диапазона сигнализирует о потенциальном нарушении нормального функционирования системы и необходимости оперативного вмешательства.

Проанализировав и устранив причины данного нарушения, можно быть уверенным, что система продолжит собственное функционирование в штатном режиме. Таким образом, наблюдая за параметрами работы системы, мы получаем потенциальную возможность оперативного реагирования на отклонения в ее работе с предотвращением возникновения серьезных сбоев и увеличения надежности системы в целом. В данном примере проводится весьма упрощенная модель – на самом деле современная ИТ-инфраструктура состоит из большого количества компонент, в каждой из которых необходимо контролировать большое количество параметров.

А если учитывать еще и взаимное влияние данных факторов друг на друга, анализ получаемых результатов превращается в довольно сложную задачу. Одно из основных требований к современной ИТ-инфраструктуре – это ее доступность. Для повышения доступности необходимо не только значительным образом уменьшить время простоя объектов инфраструктуры с повышением ее надёжности и снижения времени восстановления работоспособности после сбоев. Рассмотрим в схематичном виде, из чего состоит время простоя ИТ-системы в случае потенциального сбоя:

Время, которое требуется ИТ-службе на локализацию неисправности и назначение исполнителей для ее устранения
Время на устранение неисправности
Время, которое потребуется обычному пользователю для определения того факта, что произошел какой-то сбой и ему требуется обратиться в службу поддержки.
Время, необходимое пользователю на общение со службой поддержки
Время, которое требуется службе поддержки на обработку обращения пользователя.

Зачастую в сложных ситуациях суммарное время простоя может быть весьма значительным - особенно в случае возникновения так называемых плавающих дефектов. Для того, чтобы сократить данное время, специалистам необходима достоверная информация о работе системы за определенный промежуток времени. В том числе и сведения обо всех произошедших ранее отклонениях. Подобная информация позволяет не только оперативным образом реагировать на произошедшие изменения, но и мгновенно локализовать возникающие сбои, мгновенно их локализовать и сокращать время выявления их причин. Условно говоря, время сокращения работы системы позволяет осуществить своевременную помощь в восстановлении после сбоев и заблаговременном вычислении «узких» мест в ИТ-инфраструктуре предприятия, снижая тем самым потенциальные риски ухудшения качества работы системы или ее отказа.

До настоящего времени одним из наиболее распространенных методов анализа работы ИТ-системы является ручной сбор информации и анализ полученных данных. При данном способе ИТ-специалисты периодически проверяют подобранные ими параметры. Перечень данных параметров, а также диапазон критических значений для них и периодичность проверки напрямую могут зависеть не только от уровня квалификации, занятости или добросовестности специалистов, но и потенциальной возможности отслеживания применяемых результатов комплексного масштабирования инфраструктуры при наличии автоматизированных средств оперативного мониторинга.

В настоящее время большинство производителей оборудования представляют автоматизированные средства мониторинга для своей продукции, однако комплексное применение данных методик в крупных ИТ-системах, содержащих большое количество оборудования от различных производителей, требует повышенного внимания к каждой системе мониторинга в отдельности. Помимо этого, применение данных подобных систем комплексного анализа состояния инфраструктуры в целом весьма проблематично. Исходя из этого, при сопровождении масштабной ИТ-инфраструктуры гораздо более удобным является применение комплексных систем мониторинга.

Подобные средства позволяют собирать и накапливать данные ото всех составных частей инфраструктуры вне зависимости от производителя компонентов централизованной базе. Накопленные сведения можно получать в любом удобном для анализа формате – в разрезе отдельных единиц оборудования, составных частей инфраструктуры либо в обобщенном виде по всей инфраструктуре в целом. Основным преимуществом комплексной системы мониторинга является возможность получения информации о взаимном влиянии инфраструктурных компонентов друг на друга. Это позволяет на более качественном уровне анализировать и прогнозировать состояние системы в целом.

Результаты подобного анализа помогают значительным образом снизить комплексные затраты на поддержку системы, более комплексно и четко распределять средства для изменения состава инфраструктуры при ее модернизации. Отмечено, что совокупный эффект от применения комплексных систем оперативного мониторинга является наиболее ощутимым при их использовании в распределенных системах, где имеются территориально-распределенные офисы, не имеющие собственных служб поддержки либо при получении ИТ-услуг при поддержке инфраструктуры от аутсорсинговой компании. Именно в этих случаях огромное значение имеют объективные данные, о текущем и предшествующие состоянии системы, которые дают потенциальную возможность дистанционного анализа ситуации, выработки мер для устранения действующих проблем ив некоторых случаях их дистанционного устранения.

Владимир Куприянов, РА libria.ru