Одним из этапов тестирования разработанной нами продукции является тепловое тестирование. И мы сразу провели тестирование в самом жестком режиме работы оборудования в ЦОД – в режиме фрикулинга🔥.
Одним из способов охлаждения серверов при эксплуатации в ЦОД является Фрикулинг (Free cooling) — прямое (естественное) охлаждение, когда в ЦОД нет специализированных активных систем кондиционирования, и воздух на входе в сервер подаётся тот который забирается с улицы, без охлаждения, увлажнения или осушения. Осуществляется лишь фильтрация воздуха от пыли и насекомых и смешивание выходящего горячего воздуха с входящим холодным, чтобы исключить температурные колебания воздуха в зимний период. В таких условиях сервер может оказаться в предельных значениях температурных условий эксплуатации. Отсюда и вытекает главный недостаток данного метода охлаждения: необходимо использовать оборудование, которое гарантировано обеспечит работоспособность в течение круглого года в данной выбранной локации.
Мы сейчас говорим о самом энергоэффективном типе фрикулинга – прямом фрикулинге. Предельные значения эксплуатации сервера — это 100% утилизация всех его ресурсов при самых высоких разрешенных температурах входящего воздуха. Стандартное допустимое значение температуры рабочего режима эксплуатируемых в ЦОД серверов +35°С. Есть и более жёсткие условия эксплуатации, если, например, мы говорим о серверах используемых для граничных вычислений (Edge-серверы), которые, могут быть размещены в неприспособленном помещении отделения Банка или салона Оператора связи, то их допустимая рабочая температура может достигать +55°С согласно паспорту.
В режиме прямого фрикулинга, входящий воздух летом будет такой же температуры, какой он есть на улице. В центральном регионе максимальная летняя температура обычно не превышает +35°С. Абсолютный рекорд был зафиксирован в июле 2010 г. +38,2°С в Москве и до +40°С в Подмосковье🔥. В южных регионах максимальная летняя температура, конечно, будет выше.
Требования гиперскейлеров, облачных провайдеров, крупнейших банков, строящих современные ЦОД с использованием технологии прямого фрикулинга обычно устанавливают верхнюю границу рабочей температуры от +40°С до +45°С.
Это очень высокие требования, особенно с учетом использования в серверах современных очень «горячих» центральных процессоров и GPU-ускорителей. Зачем это вообще нужно, ведь есть классические схемы построения машинных залов ЦОД с воздушным охлаждением, предполагающие использование кондиционеров, систему холодных и горячих коридоров? Зачем держать вычислительное оборудование в «бане»?
Компания Intel Corporation ещё в конце нулевых решила, что весь мир может производить и эксплуатировать серверное оборудование, как угодно, а их собственные серверы, использующие свои же собственные центральные процессоры должны работать без применения кондиционеров. Компания Google LLC последовала примеру Intel спустя несколько лет. Коммерческие ЦОД с энергопотреблением в сотни мегаватт уже в конце десятых годов использовали технологию прямого охлаждения. Отказавшись от активного охлаждения машинных залов ЦОД возможно сэкономить до 50-70% дополнительного энергопотребления на кондиционеры, не учитывая даже стоимость их покупки, установки и обслуживания, а еще необходимо обеспечить их бесперебойное питание… В общем, экономия как на капитальных затратах, так и на эксплуатационных огромная☝.
Поэтому, разрабатывая наши универсальные модульные серверы мы сразу заложили в них возможность работы в режиме фрикулинга. Наш конструкторский отдел потратил много часов на тепловое моделирование с подбором различных конфигураций дефлекторов, установленных внутри вычислительных модулей, различных вентиляторов, воздушных клапанов шасси. Мы производили тепловое моделирование самостоятельно, а также заказывали расчеты на одном из суперкомпьютеров, кстати созданном несколькими сотрудниками, входящими в нашу команду. И вот пришло время натурных испытаний🤝.
В конце прошлого года нашими конструкторами был спроектирован термальный стенд замкнутого цикла с подмесом холодного воздуха и удалением излишне горячего. В проекте, помимо конструкторов, также были задействованы наши системные архитекторы, программисты, тестировщики, инженеры инфраструктуры ЦОД, системный администратор и даже технические писатели. В результате в конструкторской лаборатории появилась герметичная конструкция, полностью имитирующая миниатюрный машинный зал с прямым фрикулингом, которая включает в себя несколько заслонок, клапанов, множество датчиков температуры и сопряжена с инфраструктурой тестовой серверной (в которой размещены наши собственные серверы для проведения тестирования)👍. Таким образом, площадь тестовой серверной увеличилась еще на десяток квадратных метров и стала включать не только холодную зону, но и горячую. После установки серверной стойки с несколькими нашими серверами в термальный стенд и подключения их, а также всех систем изменения и контроля температуры стенда в тестовую инфраструктуру начался этап настройки и тестирования. Была развернута и настроена система мониторинга на Zabbix, подготовлены тесты, обеспечивающие достижение 100% утилизации серверов на длительных периодах (от нескольких часов до нескольких суток). И начались эксперименты.
Наш инженер, отвечающий за инженерную инфраструктуру ЦОД с помощью ИИ 😃(сейчас же все используют ИИ) создал программное обеспечение управления заслонками, регулирующими потоки внешнего и внутреннего воздуха. Вначале получилось с коллизиями, ИИ сделал так, что вначале система закручивала поток воздуха внутри комплекса, сервер нагревал его до +40°С и нужно было приоткрывать вход и выход, но... Клапан перетока закрывался при закрытых внешних клапанах, перед серверной стойкой стенд всасывал входную дверь в себя, а выходную дверь пытался выдавить вовне, и только спустя некоторое время система стабилизировалась. С помощью большого опыта и небольшого колдовства с ИИ удалось его заставить внести исправления и начать производить операции параллельно и синхронно. На текущий момент мы смогли добиться стабильности поддержки температуры в термальном стенде на уровне ±1° и даже лучше.
И под занавес мы даже оформили техническую документацию на созданный стенд, ведь это тоже серьезное инженерное изделие. В этом процессе очень помогли технические писатели.
А теперь к самому главному. Что мы увидели в итоге? Всем нам знакомый сервер «М1» при 100% утилизации способен выдерживать стабильную температуру на входе до +40° С. При превышении данной температуры используемые в сервере отечественные центральные процессоры начинают работать неустойчиво и могут отключаться, несмотря на не высокий по современным меркам уровень тепловыделения до 130 Вт. Это поправимо и уже есть идеи как можно увеличить рабочий температурный диапазон. Однако, именно модель «М1» не позиционируется нами для использования в ЦОД с фрикулингом, поскольку, в первую очередь, его место в инфраструктуре ЦОД объектов КИИ, ЗОКИИ, госучреждений, компаний с госучастием, а именно эти заказчики не используют данную технологию.
Забегая вперед (мы уже второй год ведем разработку новой модели «М2», хотя еще ни разу о нем не рассказывали) можем сказать, что универсальный модульный сервер «М2», построенный на современных процессорах архитектуры ARM64 и предназначенный именно для работы в коммерческих ЦОД в высоконагруженной инфраструктуре для требовательных к вычислительной мощности задачах искусственного интеллекта, машинного обучения, больших данных, облачных, виртуализированных, контейнерных сред, показал себя отлично👍.
При максимальной бизнес-нагрузке «М2» показал большой запас по охлаждению в пару десятков градусов при входной температуре +45° С, а в режиме синтетического (не применимого в жизни) теста продолжал работать в штатном режиме с достаточным запасом👏.
Основное тестирование завершено, и оно показало, что конструктив корпусов вычислительных модулей и шасси подтвердил правильность компьютерного теплового моделирования. Погрешность составила 1-2° С. А первая ревизия системной платы новой модели «М2» работает и уже способна проходить длительные тесты в составе модульного сервера, и также выдерживает самый экстремальный вариант охлаждения – фрикулинг, что также очень радует всю нашу команду. Мы не станем останавливаться на достигнутых результатах и продолжим расширять возможности программной настройки системы охлаждения, а наши неутомимые конструкторы, возможно, еще внесут аппаратные изменения в текущий конструктив. Новые поколения процессоров и GPU-ускорителей еще более «горячие» и мы уже знаем, как обеспечить необходимое охлаждение новых моделей нашего серверного оборудования, которые будут построены на процессорах с TDP (Thermal Design Power) 500 Вт и более.
Мы много, очень много работали и мало об этом рассказывали, постараемся это исправить, ведь нам есть чем с вами поделиться. Ждите рассказ о сервере «М2», старшем брате «М1»😉.