Найти в Дзене

Пирамида инфраструктуры ЦОД и проблемы в эксплуатации

Мы с вами живем в эпоху бурного развития информационных технологий и цифрового пространства, нас окружают сервисы и возможности, о которых еще совсем недавно трудно было себе даже представить: доступ к любой информации с носимого девайса, голосовые ассистенты и искусственный интеллект, онлайн карты и навигация, видеозвонки, умные устройства и беспилотный транспорт, облачные хранилища и электронные платежи. Это всё уже реальность! Но часто ли мы задумываемся благодаря чему это всё возможно и как это вообще работает? А тем более с какими проблемами сталкиваются инженеры и специалисты службы эксплуатации для поддержания работоспособности оборудования и систем, обеспечивающих нам столь уже привычные сервисы? Давайте разберемся с этими вопросами в данной статье. Основные процессы привычных нам цифровых сервисов происходят в центрах обработки данных (ЦОД) они же дата-центры. ЦОД — это сложный инженерный объект, обеспечивающий хранение, обработку и передачу данных. Его надёжность определяет

Мы с вами живем в эпоху бурного развития информационных технологий и цифрового пространства, нас окружают сервисы и возможности, о которых еще совсем недавно трудно было себе даже представить: доступ к любой информации с носимого девайса, голосовые ассистенты и искусственный интеллект, онлайн карты и навигация, видеозвонки, умные устройства и беспилотный транспорт, облачные хранилища и электронные платежи. Это всё уже реальность! Но часто ли мы задумываемся благодаря чему это всё возможно и как это вообще работает? А тем более с какими проблемами сталкиваются инженеры и специалисты службы эксплуатации для поддержания работоспособности оборудования и систем, обеспечивающих нам столь уже привычные сервисы? Давайте разберемся с этими вопросами в данной статье.

Основные процессы привычных нам цифровых сервисов происходят в центрах обработки данных (ЦОД) они же дата-центры. ЦОД — это сложный инженерный объект, обеспечивающий хранение, обработку и передачу данных. Его надёжность определяется не только качеством оборудования, но и целостностью всей инфраструктуры, выстроенной по принципу иерархической пирамиды, где каждый уровень не просто выполняет свою задачу, но и обеспечивает стабильную работу уровня, стоящего выше в пирамиде. В современных дата-центрах выделяют три таких уровня:

Верхний уровень — это сервисы и продукты, собственно, ради чего и существуют ЦОДы, сюда входят услуги по предоставлению IT-мощностей или возможность заказчикам размещать свое оборудование внутри дата-центра (colocation). Ниже располагается уровень IT-оборудования куда входят, например, серверы и системы хранения данных. И самая большая часть, на плечах которой функционирует всё что находится выше, – это Инженерная инфраструктура.

Все мы хотим иметь постоянный доступ к приложениям и сервисам, и расстраиваемся если что-то функционирует не так как привыкли или вовсе что-то не работает. Сегодня существуют множество предложений, которые решают одинаковые задачи для пользователей. То есть переход юзера от одного приложения к приложению конкурента решается в пару кликов. Высокая конкуренция между разработчиками заставляет бороться за внимание пользователя, оттачивать свои продукты, предлагая на их взгляд максимальный комфорт и лучший визуал, так называемые UX/UI, естественно полагаясь на стабильную работу оборудования, обеспечивающую функционирование своих приложений. То есть на стабильность инфраструктуры ЦОД.

Дата-центры, особенно коммерческие, конкурируют между собой уже за своего заказчика – разработчиков приложений, которые размещают свои продукты внутри ЦОД. По каким же критериям конкурируют между собой ЦОДы?

Согласно Uptime Institute – пожалуй самой авторитетной организации занимающейся сертификацией дата-центров по методологии под названием Tier от I до IV, где IV – это самый высокий уровень, один дата-центр отличается от другого именно показателями отказоустойчивости инфраструктуры, того самого фундамента из нашей пирамиды. Так,самый высокий Tier-IV предполагает полное резервирование всех инженерных систем, при этом допускается авария одной из единицы оборудования в один момент времени, но даже такому дата-центру возможно отключение суммарно до 26 минут в год.

Теперь вы знаете, что дата-центры между собой соревнуются прежде всего за надежность и отказоустойчивость, а не за то, у кого мощнее вычислительные мощности или больше серверов установлено. Тут,кстати, прослеживается прямая зависимость: чем надежнее ЦОД, тем ответственнее вычисления в нём могут проводиться.

Раз инженерная инфраструктура настолько важна, давайте рассмотрим поподробнее что в неё входит:

  • Система гарантированного и бесперебойного электропитания (основные и резервные источники, ИБП, дизель-генераторы);
  • Системы холодоснабжения, кондиционирования и вентиляции для поддержания необходимых температурно-влажностных условий;
  • Структурированная кабельная система (СКС) для передачи данных, мониторинга и управления;
  • Системы физического размещения и крепления оборудования (стойки и серверные шкафы);
  • Система видеонаблюдения, контроля и управления доступом, охранной сигнализации для физической безопасности;
  • Система автоматического пожаротушения для защиты оборудования от пожара.

Как видно большой перечень разнопланового оборудования и систем. К слову, продуктовое предложение Систэм Электрик перекрывает большинство из перечисленного выше. Такое разнообразие оборудования в дата-центре в сумме с высокими обязательствами по надежности требуют соответствующей квалификации от эксплуатирующего и обслуживающего персонала. Но какими бы виртуозами не были отдельные исполнители в оркестре, им нужен дирижёр, который в нужный момент и с правильным тактом запустит их в музыкальную партию. Такими дирижёрами в эксплуатации ЦОД выступают СОПы, МОПы, системы диспетчеризации и мониторинга. SOP (Standard Operating Procedure) – это стандартная операционная процедура, документ высокого уровня, задающий общие рамки выполнения работ. MOP (Method of Procedure) — методика выполнения процедуры, детальный пошаговый документ для выполнения конкретных операций. Кстати, эти документы нужны для прохождения сертификации Uptime Institute.

Безусловно проведение регламентных мероприятий и превентивных работ по обслуживанию инженерной инфраструктуры ЦОД повышает его отказоустойчивость. Но не всегда в процессе эксплуатации всё проходит как по нотам, особенно в сложных и постоянно меняющихся условиях, тем более сбои в работе оборудования могут оставаться длительное время без обнаружения, усугубляя положение и усложняя последующее восстановление. Для отслеживания текущих процессов и всего состояния ЦОД внедряются системы мониторинга или DCIM (Data Center Infrastructure Management). Мониторинг — это «нервная система» дата‑центра, которая обеспечивает его надёжность, экономичность и соответствие бизнес‑требованиям. Её внедрение на этапе строительства ЦОД — обязательное условие для стабильной работы.

В ближайшее время, здесь и в нашем Telegram канале мы планируем рассказать подробнее о продуктах и решениях Систэм Электрик по мониторингу, различной телеметрии и системе контроля и управления доступом (СКУД).

Пишите в комментариях с какими трудностями вы сталкиваетесь при эксплуатации ЦОД.