Как ЦОДы защищают данные клиентов от стихии
Удар молнии вызвал серьезный сбой в работе облачных сервисов Azure — спустя год Microsoft реализовала решение, способное нивелировать подобные угрозы.
Во время сильной грозы по одному из дата-центров Azure в Сан-Антонио, штат Техас, ударила молния. Это вызвало скачок напряжения в электроснабжении и выход из строя систем охлаждения. Защитные механизмы не справились с нагрузкой, температура воздуха в помещении повысилась, и оборудование должно было автоматически отключиться – однако этого не произошло.
Механизм автоматического отключения обеспечивает сохранение целостности инфраструктуры и данных, однако в этот раз температура в ЦОД повысилась настолько быстро, что оборудование вышло из строя, не успев отключиться. Это привело к повреждению целого ряда серверов хранения, а также нескольких сетевых устройств и блоков питания.
Из-за сбоя перестали работать порядка 40 сервисов Azure, размещенных в Южном центральном регионе США с поддержкой зон доступности (в которые входит несколько дата-центров), ряд сервисов Azure в других регионах, а также решения Office 365, включая Exchange, SharePoint и Teams. Пострадавшие сервисы были напрямую завязаны с вышедшими из строя системами хранения, либо их работа зависела от сервисов, связанных с такими системами.
Microsoft поплатилась за недостаточное внимание к вопросу отказоустойчивости. А решение, которое способно предотвратить такие серьезные последствия, существует. Более того, конкуренты Microsoft, Google и Amazon, уже использовали его. На тот момент они убедились, что в форс-мажорных ситуациях отказоустойчивость способны обеспечить зоны доступности.
Зона доступности — это один или несколько дата-центров, имеющих независимые системы охлаждения, сетевого взаимодействия и электроснабжения. При этом каждая зона изолирована от аппаратных и программных сбоев в других зонах доступности, что обеспечивает высокое качество резервного копирования и аварийного восстановления на случай сбоев.
Инцидент в Техасе произошел в сентябре 2017. Спустя год Microsoft реализовала многозонную стратегию. Каждая зона доступности компании включила от одного до нескольких центров обработки данных, оснащенных независимыми системами электроснабжения, охлаждения и сетевого взаимодействия. Физическое разделение зон доступности внутри региона защищает приложения и данные от сбоев центра обработки данных. Зональные сервисы реплицируют приложения и данные в зонах доступности для защиты на случай сбоев. На сегодняшний день такая система существует уже в 7 регионах Azure, расположенных на территории Европы и США. Планируется создание новых зон доступности.
Комментарий эксперта Xelent
«Стратегия непрерывности бизнеса нужна компаниям разных масштабов и сфер деятельности — каждое прерывание работы сервисов может иметь критичные последствия для бизнес-процессов. Поэтому есть правила организации disaster recovery, катастрофоустойчивых хранилищ и резервирования. С этой точки зрения Санкт-Петербург является отличным выбором для организации катастрофоустойчивого резервирования московских компаний. Если в столице случится blackout, он не затронет Петербург в силу удаленности. По правилам организации таких резервных хранилищ между двумя точками должно быть не менее 600 км, — объясняет Илья Рогов, директор по облачным сервисам дата-центра Xelent. – Создать полноценные зоны доступности под силу только международным ИТ-гигантам, таким как Microsoft. Локальные провайдеры имеют другие, но не менее эффективные способы обеспечения непрерывности бизнеса. Это решения по резервному копированию, организации «горячей» миграции в частное и публичное облако. В зависимости от требований заказчика мы подбираем решение, которое оптимально подходит ему как по параметрам сохранения данных, работоспособности его инфраструктуры, так и по параметрам экономии».