Найти тему
ART Engineering

Uptime Institute выделил 3 самые частые причины сбоев в работе ЦОДов в 2024 году

Оглавление

Uptime Institute опубликовал отчет о сбоях в работе центров обработки данных на основании проведенного опроса, в котором участвовало 850 респондентов. Наиболее распространенными причинами аварий стали кибератаки, электроснабжение и человеческий фактор. Однако сохраняется устойчивая тенденция по увеличению времени безотказной работы ЦОДа, что связано с инвестициями в резервирование физической инфраструктуры дата-центра.

Изображение: Freepik
Изображение: Freepik

Аналитики из Uptime Institute проанализировали факторы, которые больше всего влияют на корпоративные сети и дата-центры. Причинами публично сообщаемых сбоев стали:

  • IT-системы (программное обеспечение/конфигурация) — 23%;
  • сетевая инфраструктура (программное обеспечение/конфигурация) — 22%;
  • электроснабжение — 11%;
  • кибератаки/программы-вымогатели — 11%;
  • оптоволокно — 10%;
  • пожары/срабатывание противопожарных систем — 9%;
  • перебои в работе системы охлаждения серверов — 6%;
  • сеть (кабели) — 4%;
  • проблемы с провайдером/партнером — 2%;
  • недостаточная располагаемая мощность IT-нагрузки для удовлетворения спроса — 1%;
  • другое — 1%.

55% респондентов отмечают за последние 3 года в работе ЦОДов сбои различного уровня влияния на бизнес. Данный показатель снизился на 5% по сравнению с 2022 годом и на 14% — с 2021. 10% респондентов столкнулись с серьезными и критическими сбоями, которые привели к финансовым потерям и репутационному ущербу. Подобные крупные сбои происходят 10-20 раз за год в различных ЦОДах. При этом в ⅔ случаях человеческий фактор является причиной возникновения аварий.

Так в ЦОД Федерального управления гражданской авиации США произошел сбой, причиной которого была ошибка в конфигурации программного обеспечения. В результате инцидента перестала работать система оповещения пилотов, что затронуло более 30 тыс. рейсов. Пострадали акции крупных авиакомпаний.

Кибератаки

Кибератаки наносят серьезный вред работе оборудования. 11% сбоев связано с внедрением в систему программ-вымогателей злоумышленников. По данным Uptime Institute, большинство современных систем управления инфраструктурой, используемых в дата-центрах, и их компонентов теперь поддерживают передачу данных через IP. Это делает их менее защищенными от киберугроз.

Электропитание

30% респондентов отметили сбой в работе дата-центра по причине перебоев с электропитанием.

Среди них 42% отметили отказ источника бесперебойного питания (ИБП) в качестве причины проблемы, а 28% респондентов как еще один фактор указали сбои при переводе нагрузки на резервные мощности. Тестирование резервных генераторов необходимо делать планомерно и регулярно. Это поможет избежать остановок в работе в случае отказа основных источников.

Вместе с тем, все больше организаций тратят свои силы на резервирование элементов системы охлаждения (33%),а также компонентов системы электропитания (39%). Несмотря на устойчивое развитие возобновляемых источников энергии и их применение в работе ЦОДов, проблемы с перебоями в электроснабжение будут увеличиваться, что снизит надежность функционирования дата-центров в целом, как утверждает Uptime Institute.

"Человеческий фактор"

Развитие искусственного интеллекта стремится снизить влияние человека на процессы, сделав их независимыми и автономными. Ошибаться свойственно людям, и обслуживающий персонал ЦОДов не исключение. Так 40% респондентов связали сбои в работе дата-центра с человеческой ошибкой.

48% заявивших о сбоях, выявили несоблюдение персоналом ЦОДа процедур. Еще 45% отметили некорректные процессы или протоколы, которые использовал персонал. 23% указали причину, связанную с монтажом, которая и вызвала сбой.

Есть ряд и других проблем, которые включают “человеческий фактор”:

  • сбои во время эксплуатации —20%;
  • дефицит персонала — 15%;
  • недостаточная частота профилактического обслуживания — 14%;
  • упущения при проектировании дата-центра — 10%.

Инженеры ART Engineering сертифицированы Uptime Institute. Используя в своей работе BIM-проектирование, мы максимально снижаем вероятность ошибок, связанных с разработкой ЦОДов, увеличивая таким образом надежность дата-центров своих клиентов. Обсудить свой проект можно, оставив заявку на нашем сайте.

По оценкам Uptime Institute, за 25 лет на человеческий фактор приходится от 2/3 до 4/5 остановок ЦОДов. Авторы отчета отметили, что человеческие ошибки напрямую или опосредованно связаны с каждым даунтаймом. Автоматизация всех этапов производства и строительства дата-центра поможет снизить риск отказов.

Uptime Institute видит повышение надежности функционирования дата-центров за счет улучшения управления, эксплуатационных процессов и конфигурации оборудования. Чтобы сократить простои ЦОДа, рекомендуется улучшать программы обучения персонала и планомерно проводить тщательный анализ процессов.