Найти тему
ART Engineering

Как избежать аварий в дата-центрах?

Оглавление

20 августа 2018 года сбылся страшный сон всех владельцев недвижимости: Росреестр перестал работать. Сделки с недвижимостью в ЕГРН не регистрировались 2 недели. Причиной сбоя стала авария в дата-центре. Что послужило причиной самой аварии, осталось неизвестным.

Мы познакомим вас с самыми распространенными причинами аварий в центрах обработки данных и разберемся, какие меры помогут их избежать.

Проблемы с электроснабжением

Перебои в подаче электроэнергии частая причина помех в работе дата-центров. Проблемы с питанием могут привести не только к отключению, но и повреждению оборудования, такого как серверы, коммутаторы, маршрутизаторы. Скачки электричества также могут вывести из строя системы охлаждения и пожаротушения.

Чтобы предотвратить проблемы с питанием, центры обработки данных должны иметь качественные резервные источники питания – ИБП и дизель-генераторные установки, обеспечивающие ЦОД электроэнергией. Важно, чтобы оборудование регулярно обслуживалось.

В феврале 2018 года в австралийском дата-центре Vocus Communications случился сбой электроснабжения. Источники бесперебойного питания оказались не в состоянии справиться со своей задачей, поскольку долгое время не обслуживались. На восстановление работоспособности ЦОДа ушли сутки, а выявленные недочеты сервиса стали причиной ухода основных клиентов, которые расторгли контракты и перевели серверы в другие дата-центры.

Нарушение электробезопасности

Аварии в центрах обработки данных могут происходить из-за скачков напряжения. Внезапное увеличение мощности приводит к перегреву. Если оборудование не рассчитано на компенсацию этих скачков, есть риск возникновения пожара.

Еще одно серьезное последствие пренебрежение требованиями электробезопасности дуговая вспышка. К ней может привести нарушение проводки, запыление, наличие конденсата, коррозия, ошибки в монтаже. Нередко электрическая дуга возникает в результате случайных действий персонала например, из-за оброненного на проводку инструмента. Снизить риски возникновения дуги можно, регулярно проводя проверки проводки на предмет коррозии и повреждений, а также следуя технике безопасности.

ЦОД Google в штате Айова пострадал от дуговой вспышки: она возникла, когда трое рабочих проводили осмотр электрического шкафа. В результате взрыва все трое попали в больницу, в работе поисковика и Google-карт произошли массовые сбои, была повреждена часть оборудования.

Проблемы сопутствующего оборудования

Часто основное внимание переносится на телекоммуникационное оборудование, но причиной аварии становится выход из строя неосновной техники. Например возгорание кондиционера стало причиной серьезного пожара в Башне Хаваджа в Дакке (Бангладеш) в октябре 2023 года, который унес жизни 3 человек. IT-хаб, в котором располагались несколько дата-центров и точки обмена трафиком, горел 7 часов, в результате чего у 23 млн абонентов сотовых операторов возникли проблемы со связью.

Литий-ионные батареи

Литий-ионные аккумуляторы могут хранить и отдавать много энергии при малом весе. Такой аккумулятор весом в 1 кг имеет такую же энергоемкость, как шестикилограммовый свинцово-кислотный аккумулятор. Но есть проблема: при перегреве литий-ионные аккумуляторные батареи могут взрываться. Необходим постоянный контроль их температуры и оперативное реагирование на нагрев.

15 октября 2022 года в южнокорейском дата-центре SK C&C Data Center загорелась литий-ионная батарея. Пожар привел к остановке 32 тысяч серверов. Больше всего из арендаторов пострадала компания Kakao. Из-за аварии «лег» KakaoTalk — популярнейший в стране мессенджер, в котором общаются 45 млн абонентов (всего в Южной Корее проживает 52 млн человек), начались сбои в работе платежных систем, такси и почты. На устранение последствий аварии ушло почти двое суток. Из-за инцидента содиректор компании Kakao ушёл в отставку.

-2

Ущерб от этого пожара был так велик, что компания Kakao начала разрабатывать проекты собственных сейсмоустойчивых дата-центров. Особое внимание разработчики уделили системам быстрого пожаротушения. ИБП и аккумуляторные батареи в ЦОДах было решено разделить противопожарными барьерами. Все электрощиты оснастили датчиками температуры, которые могут моментально реагировать на критическое повышение показателей. Компания патентует собственную разработку — систему пожаротушения литиево-ионных батарей.

Физическая уязвимость

Несмотря на наличие ЦОДов в бункерах, горных шахтах и других особо укрепленных местах, большая часть дата-центров не так хорошо защищена. Рисков много: от молнии и затопления до вторжения на территорию. Стандартные меры, в том числе ограждение по периметру и контроль доступа, не всегда решают проблему, ведь нарушителями могут оказаться не только люди, но и животные. Беречь приходится не только территорию центра обработки данных, но и кабели, подходящие к нему. Крупные дата-центры предпочитают прокладывать инженерные коммуникации под землей.

Эпичной стала авария в дата-центре Yahoo в США в 2010 году. Белка перегрызла кабель. Технический директор компании так описал масштаб ущерба: «Жареная белка уничтожила половину нашего центра обработки данных в Санта-Кларе».

-3

Цифровая уязвимость

Несанкционированный доступ, утечка данных, вредоносные программы или DDoS-атаки способны нарушить конфиденциальность, сохранность и доступность данных и систем ЦОД. Проблемы с кибербезопасностью также могут подвергнуть центр обработки данных юридическим рискам, уничтожить репутацию владельцев. Шифрование данных, защита от вредоносных программ, безопасность аутентификации и авторизации, аудит систем, резервное копирование основы кибербезопасности ЦОДов.

18 августа 2023 года программа-вымогатель атаковала датский облачный хост Cloud Nordic. Она парализовала работу сервиса. Отказ компании в выплате привел к уничтожению большей части данных пользователей. Предполагается, что серверы были заражены при перемещении между ЦОДами. Вирус распространился при соединении зараженных серверов с основной системой. Программа-вымогатель зашифровала все диски серверов, основную и дополнительную системы резервного копирования.

Вне зависимости от размеров дата-центров, аварии на них опасны не только затратами на новое оборудование. Любое происшествие влечет за собой репутационные потери сервиса и его пользователей, а иногда и человеческие трагедии от невозможности вовремя вылететь из аэропорта до гибели людей. Компания ART Engineering российский производитель модульных ЦОД. Мы учитываем международный опыт, чтобы предлагать вам современные решения безопасности хранения данных.

ART Engineering продолжает исследование “Как изменился рынок ЦОД за 2 года” Поучаствовать в опросе можно, перейдя по ссылке. Ваше мнение важно для нас!