Добавить в корзинуПозвонить
Найти в Дзене
EnMørk

Разогрейте сервер. Free-Cooling

Одним из этапов испытаний серверов является термальное тестирование, в идеале — в самом жёстком режиме работы оборудования, при стопроцентной утилизации и для фрикулинга🔥, т.е. без кондиционирования, а для охлаждения берётся воздух с улицы какой он есть. Intel ещё в 2006 (примерно) году свои ЦОДы переводил на Free-Cooling, оставляя идеи держать в холодном коридоре +22° для своих потребителей, не

Одним из этапов испытаний серверов является термальное тестирование, в идеале — в самом жёстком режиме работы оборудования, при стопроцентной утилизации и для фрикулинга🔥, т.е. без кондиционирования, а для охлаждения берётся воздух с улицы какой он есть. Intel ещё в 2006 (примерно) году свои ЦОДы переводил на Free-Cooling, оставляя идеи держать в холодном коридоре +22° для своих потребителей, не считающих $. А ведь P.U.E. 1,5 кошмарен, тратить ещё половину всей электрической мощности на охлаждение — как-то уж слишком по-богатому.

Одним из способов охлаждения серверов при эксплуатации в ЦОД является Фрикулинг (Free cooling) — прямое охлаждение, когда в ЦОД нет активных систем кондиционирования, а воздух на входе в сервер подаётся тот же, что забирается с улицы, без охлаждения, увлажнения или осушения. Надо лишь фильтровать его от пыли и насекомых и... смешивать его с выходящим воздуха из горячего коридора больше половины времени в году для России с её зимами.

В таких условиях сервер может оказаться в предельных значениях температурных условий эксплуатации, и хоть выше +25-27° в средней полосе России поднимается не чаще 2,5% времени в году, а +35 и выше в Подмосковье бывает и вовсе с десяток часов, но ведь может... да ещё тогда, когда у вас нагрузка возросла (а почему бы и нет?). Отсюда и вытекает главный недостаток этого метода охлаждения: необходимо использовать оборудование, которое гарантировано обеспечит работоспособность в течение круглого года в данной выбранной локации. +35°? Берём обычное. +38? Надо внимательно разбираться. +42? Тогда будет так (где я — самая холодная точка на этой картине).

-2

Предельные значения эксплуатации сервера — это 100% утилизация всех его ресурсов при самых высоких разрешенных температурах входящего воздуха. Стандартное допустимое значение температуры рабочего режима эксплуатируемых в ЦОД серверов +35°С. Есть и более жёсткие условия эксплуатации, например, для граничных вычислений (Edge), которые, могут быть размещены в неприспособленном помещении отделения Банка или салона Оператора связи, то их допустимая рабочая температура может достигать +55°С согласно паспорту.

Google тоже перешёл на фрикулинг весьма давно, через пару лет после Интела. Почему? Потому то экономика должна быть экономной. Но ведь это же горячо, оно же сгорит — можно подумать? Опыт ЦОД в Грузии, где всё лето +39 с восьми утра до девяти вечера, показал что можно. Только осторожно.

В режиме прямого фрикулинга, входящий воздух летом будет такой же температуры, какой он есть на улице. В центральном регионе максимальная летняя температура обычно не превышает +35°С. Абсолютный рекорд был зафиксирован в июле 2010 г. +38,2°С в Москве и до +40°С в Подмосковье🔥. В южных регионах максимальная летняя температура, конечно, будет выше, в ЦОД Липецка, региона, что по паспорту погоды не имеет выше +38, у меня две недели в году два года подряд было +42. Как-то так...

-3

Требования гиперскейлеров, облачных провайдеров, крупнейших банков, строящих современные ЦОД с использованием технологии прямого фрикулинга, обычно устанавливают верхнюю границу рабочей температуры от +40°С до +45°С, из практики или по совету бывалых.

Это очень высокие требования, особенно с учетом использования в серверах современных «горячих» центральных процессоров и GPU. Зачем это вообще нужно, ведь есть классические схемы построения машинных залов ЦОД с воздушным охлаждением, предполагающие использование кондиционеров, систему холодных и горячих коридоров? Зачем держать вычислительное оборудование в «бане»?

Коммерческие ЦОД с энергопотреблением в сотни мегаватт уже в конце десятых годов использовали технологию прямого охлаждения. Отказавшись от активного кондиционирования машинных залов ЦОД может сэкономить половины (обычно треть) от общего энергопотребления — эта треть уходит как раз на кондиционеры, не учитывая даже затрат на их покупку, установку и обслуживание, а ещё необходимо обеспечить их бесперебойное питание… В общем, экономия как на капитальных затратах, так и на эксплуатационных огромна☝.

-4

Поэтому, поставив себе серверы в ЦОД с фрикулингом, подумайте, есть ли у них возможность работы в этом режиме? Мои коллеги потратили много часов на тепловое моделирование с подбором различных конфигураций дефлекторов, установленных внутри узлов, различных вентиляторов, воздушных клапанов с защитой от перетока, считали самостоятельно, заказывали на один из суперкомпьютеров, кстати созданном несколькими ими же. И вот пришло время натурных испытаний🤝.

Термокамера, управление клапанами, созданное ИИ (шучу, созданное инженером, который этот ИИ терроризировал), в итоге стабилизация ±1° на длительных прогонах. Как это было:

В конце прошлого года спроектировали этот термальный стенд замкнутого цикла с подмесом холодного воздуха и удалением излишне горячего. Конструкторы, программисты, тестировщики, инженеры инфраструктуры ЦОД, системный администратор и технические писатели дружно сражались против идеи «это работать не будет», которую высказывали скептики. В результате в конструкторской лаборатории появилась герметичная конструкция, полностью имитирующая миниатюрный машинный зал с прямым фрикулингом, которая включает в себя три заслонки с клапанами, датчики температуры.

После установки серверной стойки с несколькими серверами (примерно от 5 до 10 кВт) в термальный стенд и подключения их, а также всех систем изменения и контроля температуры стенда в тестовую инфраструктуру начался этап настройки и тестирования. Собственно, всё просто — мониторинг на Zabbix (на чём кому удобне), бенчмарки для 100% утилизации на периоде до нескольких суток, и... Эксперименты!

-5

Инженер, отвечающий за инженерную инфраструктуру ЦОД с помощью ИИ 😃(сейчас же все используют ИИ, да? Вы же используете? Если нет, то ИИ придёт к вам сам...) создал программное обеспечение управления заслонками, регулирующими потоки внешнего и внутреннего воздуха. Вначале получилось с коллизиями, ИИ сделал так, что система закручивала поток воздуха внутри комплекса, сервер нагревал его до +40°С и нужно было приоткрывать вход и выход, но... Клапан перетока закрывался при закрытых внешних клапанах, перед серверной стойкой стенд всасывал входную дверь в себя, а выходную дверь пытался выдавить вовне, и только спустя некоторое время система стабилизировалась. С помощью инженера гого мозга и магии с ИИ удалось его заставить внести исправления и начать производить операции параллельно и синхронно. На текущий момент стабильность поддержки температуры в термальном стенде держится на уровне ±1°.

Просто,и потому то кому-то надо верить в себя и не смотреть в рот другим экспертам. Тем более, что ничего сверхнового-то зачастую никто и не придумывает.

============

Подписывайтесь на канал – зарисовки выходят каждый день.

Ставьте лайк, если понравилось

#сервер

#охлаждение

#фрикулинг

#Free-Cooling