Работая над проектом, проектировщик центра обработки данных (ЦОД), как правило, думает о технических решениях, которые ему надо разработать и применить согласно полученному от заказчика техническому заданию (ТЗ), об экспертизе проекта. Но достаточно редко он задумывается о периоде дальнейшей эксплуатации. Почему так происходит и какие проблемы это влечет?
Александр Бахлыков
Руководитель инженерно-проектного бюро bimDC
Постановление Правительства РФ № 87 от 16.02.2008 г. "О составе разделов проектной документации и требованиях к их содержанию" определяет две стадии проектирования. Разрабатывая стадию "П" (первую часть проекта), проектировщик всегда думает о том, как он будет ее защищать в экспертизе. А эксперты будут проверять проектировщика в первую очередь на соответствие разработанного проекта требованиям технического задания и нормативной базы. При обнаружении несоответствий проектировщик должен их исправить. Другой момент, который проектировщик точно продумывает, – это как ему попасть в ограничения и требования, которые формирует заданный в ТЗ стандарт. Часто говорят, что проект по уровням Uptime institute должен соответствовать Tier-III или Tier-IV.
Как же при таком количестве вводных заставить проектировщика задуматься еще и об эксплуатации? В идеальном случае лучше поставить перед ним два условия:
- Прописать все пожелания к последующей эксплуатации ЦОД в техническом задании.
- Привлечь как можно раньше к работе над проектом службу эксплуатации ЦОД.
Возникает аналогия с покупкой квартиры и ремонтом. Если вы купили квартиру с готовым ремонтом, то вы, скорее всего, будете много переделывать, потому что существующие решения, которые там реализованы, существующий ремонт вас устроит не полностью. Если же вы делаете ремонт с нуля, вы наймете подрядчиков: архитектора, инженера, дизайнера, строителей. Наняв, вы, вероятно, будете их тщательно контролировать, чтобы все было сделано правильно – так, как вам нужно для комфортной жизни. Если такой надзор не осуществлять, то результат, скорее всего, вас не устроит. С ЦОД то же самое. Какой бы умный проектировщик ни был, если он не узнает ваших требований по эксплуатации, он не учтет их.
По теме формирования службы эксплуатации я советую изучить две относительно свежие книги:
- Алексей Жумыкин – "Настольная книга эксплуататора";
- Константин Нагорный, Тарас Чирков, Андрей Чеснов – "Эксплуатация ЦОД: практическое руководство".
Авторы материалов – серьезные практики, знающие не понаслышке обо всех проблемах эксплуатации.
Если нет службы эксплуатации
Если строится новый ЦОД и команда абсолютно новая, то служба эксплуатации скорее всего еще не создана. Значит, во время работы над проектом и строительством ЦОД самое время начать ее формирование. К этапу пусконаладочных испытаний вы сможете подойти уже со сформированной командой по эксплуатации ЦОД.
В это время оптимально будет разработать регламенты дальнейшей работы службы эксплуатации, подготовить материально-техническую базу, перечни необходимых инструментов, материалов, разработать и описать процессы эксплуатации, регламенты, случаи штатных-нештатных ситуаций.
Техническое задание и нормативы
Если службы эксплуатации нет или она по какой-то причине не привлечена к работе, для формирования дополнительных требований остается техническое задание. Очень часто в ТЗ упомянута одна только фраза по теме: "Выбранное оборудование и технические решения должны обеспечивать удобство эксплуатации".
Следующим шагом проектировщика становится ознакомление с существующей нормативной базой по эксплуатации. В России есть несколько нормативных документов. Существуют также международные и национальные нормы. Среди российских нормативов выделю ГОСТ Р 58812– 2020 "Центры обработки данных. Инженерная инфраструктура. Операционная модель эксплуатации. Спецификация". Многие эксперты считают, что это методология ITIL (Information Technology Infrastructure Library), которую попытались применить к эксплуатации ЦОД. Другой достаточно важный документ, принятый в начале 2024 г., – ГОСТ Р 70627–2023 "Центры обработки данных. Инженерная инфраструктура. Документация. Техническая концепция. Требования к составу и содержанию". Это первый серьезный документ, который должен учитываться при создании ЦОД и с которым должна ознакомиться служба эксплуатации.
В нем описывается не только техническая концепция того, где будет строиться ЦОД, как он будет строиться, но и то, как его эксплуатировать, какие будут затраты на эксплуатацию, за счет чего они образуются. Проектировщик, обладающий опытом проектирования центров обработки данных, может и сам оценить концепцию затрат, но, если привлечь будущую службу эксплуатации, данные будут более реалистичными.
Недавно в НОПРИЗ состоялось заседание комитета по эксплуатации зданий и сооружений, на котором обсуждались вопросы эксплуатации объектов на стадии проектирования. На нем было предложено:
- разработать дорожную карту создания СП по эксплуатации;
- ввести норму обязательной загрузки эксплуатационной документации в государственные информационные системы;
- внести в ряд нормативных актов поправки, которые закрепляют обязанность застройщика или проектной организации передавать документацию эксплуатирующим организациям до подписи акта о вводе объекта в эксплуатацию;
- ввести необходимость учетов стоимости эксплуатации на стадии проектирования (эта норма из рекомендательной должна стать обязательной).
Обсуждалось еще много пунктов с точки зрения создания новых СП, сфокусированных на эксплуатации, которые надо будет прописывать в ТЗ и учитывать при проектировании.
Международные нормативы
Uptime
У нас широко известны три уровня сертификации от Uptime Institute:
- сертификация дизайна (проекта);
- сертификация создания ЦОД (объекта после того, как его построили);
- сертификация операционной устойчивости.
После сертификации операционной устойчивости ЦОД может быть присвоено три уровня – бронзовый, серебряный и золотой, в зависимости от количества набранных при аудите баллов.
На сайте организации представлена карта сертифицированных ЦОД во многих странах, включая Россию. Если посмотреть на данные по нашей стране, то достаточно много ЦОД имеют сертификат на дизайн, чуть поменьше имеют сертификаты на стройку и еще меньше сертификатов на операционную устойчивость.
Сертификат Uptime нужно регулярно обновлять, подтверждать. Для этого организация Uptime Institute регулярно проводит аудит службы эксплуатации ЦОД и закрепляет, подтверждает соответствующий уровень или, в противном случае, лишает его. Золотой уровень дается на три года, серебряный – на два, бронзовый – на год. У Uptime также есть программы обучения для специалистов по эксплуатации.
EPI
Другая организация, уделяющая внимание процессу эксплуатации, – это EPI. Она занимается сертификацией ЦОД по стандартам TIA-942.
EPI разработали свой стандарт Data Center Operation Standard ("Стандарт эксплуатации центров обработки данных"), проводит по нему аудиты и сертификацию эксплуатируемых ЦОД. В EPI определено 11 дисциплин, в соответствии с которыми ЦОД может быть на одном из пяти уровней зрелости, исходя из того, как подробно каждая дисциплина внедрена в службу эксплуатации. После прохождения сертификации центр обработки данных получает сертификат EPI. Подобный сертификат очень хорошо использовать в маркетинговых целях. Данные о сертификации будут размещены на сайте EPI. Периодически его также нужно подтверждать.
У EPI, как и у Uptime, существуют курсы обучения, например курс "Сертифицированный менеджер по эксплуатации центров обработки данных".
Вызовы, стоящие перед службой эксплуатации
Период эксплуатации, безусловно, сопряжен с рядом вызовов:
- постоянная модернизация оборудования инженерных сетей и систем;
- управление структурой больших данных;
- повышение надежности системы.
Возникновение таких вызовов связано с развитием технологий в ИТ и с искусственным интеллектом (ИИ). По моим наблюдениям, любое уважающее себя мероприятие по ЦОД должно осветить вопрос, как надо изменить технологии в проектировании и в строительстве ЦОД для того, чтобы разместить в нем стойки для развертывания инфраструктуры ИИ, где будут большие мощности, и есть ли специфические требования к охлаждению. Речь о водяном или погружном охлаждении и о том, как это размещение повлияет на всю остальную инфраструктуру: какие площади высвободятся, какие будут, наоборот, заняты и т.д.
Повышение энергоэффективности
Электричество дорожает, в том числе и в связи с развитием информационных технологий и ИИ, возникает дефицит мощностей. Где его взять? Вопрос остается открытым. Но уже понятно, что потребности в электричестве для ИИ превышают возможности его генерации.
Работы ведутся, но при этом в существующих ЦОД возникает проблема: как только вы захотите поставить стойку с GPU (стойка (сервер) с графическим процессором), то есть с серверами, которые работают с ИИ, потребуются очень большие мощности, 40 кВт на стойку и выше. Причем вам надо не только где-то взять эти мощности, но и как-то охладить высоконагруженные стойки. Такие решения есть, и они меняют архитектуру инженерной инфраструктуры современных ЦОД.
Безопасность
Новые реалии поставили ребром вопросы безопасности. Причем не только кибербезопасности, но и физической. Практически каждый существующий и новый ЦОД задумывается об антидроновой защите – это радиоэлектронные средства борьбы, физические защиты-сетки, панели и т.д. В новых проектах такие средства защиты стали обычным и чуть ли не обязательным требованием.
Проблемы эксплуатации
Проблем эксплуатации немало, начиная с устаревания техники. Замена старых компонентов – это необходимость. Старые устройства теряют эффективность работы, энергоэффективность, надежность.
Самый большой друг службы эксплуатации – система мониторинга. В зависимости от того, насколько правильно она спроектирована, как она эксплуатируется, что в ней внедряется, используется, зависит, как ЦОД себя ведет, что с ним делать, как его эксплуатировать. Для работы с большой, тяжелой системой мониторинга требуются обучение сотрудников, регулярные тренинги, сертификации. На этом этапе опять встает вопрос нехватки подготовленного, высококвалифицированного технического персонала. Нет соответствующих курсов (их мало, они дорогие), уровень заработной платы для такого персонала недостаточный. Конечно, ЦОД нужны опытные люди, умеющие работать, но при этом важно соблюсти баланс по затратам.
Большие данные
Нельзя не затронуть предиктивную аналитику, она начинает активно использоваться в системах мониторинга ЦОД. Данные сначала собираются, и чем больше датчиков, чем больше оборудования, чем больше сигналов, тем больше становится это озеро или океан данных, с которыми может работать ИИ. Дальше система мониторинга с возможностями ИИ может с этими данными работать и помогать операторам ЦОД предсказывать возможные аварии и инциденты с оборудованием инженерных систем, прогнозировать необходимые замены оборудования.
В большинстве ЦОД замена оборудования проходит по регламенту. При окончании срока службы его надо менять. Неважно, в каком состоянии оборудование, работает или нет, по регламенту его надо менять. И его меняют. Это неэффективно с точки зрения затрат на оборудования, но зато сохраняет спокойствие службе эксплуатации.
Предиктивная аналитика позволяет определять, какое оборудование может в скором времени выйти из строя. В этом случае его замена оправданна. Если таких сигналов нет, оборудование продолжают эксплуатировать.
Это позволяет снизить затраты на эксплуатацию, что является важным конкурентным преимуществом ЦОД как бизнеса.
Иллюстрация к статье сгенерирована нейросетью Kandinsky