Подход Lenovo к HPC-решениям отличается от, так сказать, «классического». В основу положены унификация и масштабируемость. Под первым подразумевается не только снижение числа различающихся шасси и узлов с целью повышения совместимости, но и принципиальное использование исключительно стандартных 19” стоек. В отличие от решений, например, Cray или Atos, которые используют собственные широкие узлы и стойки, серверы Lenovo позволяют обновить парк машин без изменений уже имеющейся инфраструктуры ЦОД. Причём речь не только о питании, охлаждении и сети — даже планировка и лифтовое оснащение дата-центра могут оказаться непригодными для транспортировки и инсталляции нестандартных решений.
К тому же у Lenovo имеются версии одних и тех же машин как с прямым водяным Direct Water Cooling (DWC), так и с привычным воздушным охлаждением. Кроме того, несколько лет назад Lenovo ещё больше упростила процесс установки, предоставляя заказчикам готовые, собранные и протестированные решения, которые на месте собираются как конструктор Lego с минимальными усилиями со стороны персонала ЦОД. Унификация ведёт и к лёгкой масштабируемости — компания не делает принципиальных различий между системами в пару петафлопс и в пару сотен петафлопс. Если надо комплекс в половину стойки, поставят его. Если надо два десятка стоек — тоже не проблема.
Собственно говоря, на выставке нам удалось пообщаться с Риком Купманом (Rick Koopman), отвечающим в Lenovo за решения для HPC и гиперскейла в регионе EMEA. Нетрудно догадаться, что в компанию он пришёл из IBM. Он же провёл небольшую экскурсию по стенду и ответил на несколько вопросов о работе и планах компании. Но начнём мы со стенда.
Пожалуй, ключевым решением для HPC являются машины серии ThinkSystem SD650 для шасси NeXtScale n1200 высотой 6U, которое позволяет разместить 12 узлов и предоставляет 6 общих блоков питания и 10 кулеров. Каждый узел имеет два процессора Intel Xeon Scalable (Skylake или Cascade Lake), 12 слотов памяти (DDR4 с Intel Optane DCPMM), разъёмы ML2 (Mezzanine LOM) и PCIe x16 для 100Gb-адаптеров EDR InfiniBand или Intel Omni Path, дисковую корзину для 2,5” SSD 2 × 7-мм SATA или 1 × 15-мм NVMe + пары M.2 с аппаратным RAID1, а также два 1GbE-порта для служебных нужд.
Отличительной чертой данного решения является прямое жидкостное охлаждение DWC Lenovo Neptune, а точнее говоря, её строение. Компания отдельно подчёркивает, что, во-первых, абсолютно все компоненты охлаждаются именно жидкостью DWC, а во-вторых, конкретно для CPU, которые в это цепочке стоят первыми, используются отдельные потоки. То есть на входе поток делится пополам и идёт сразу через два узла, и в каждом из них снова разделяется надвое и омывает оба процессора одновременно. Это, с одной стороны, позволяет использовать самые горячие модели CPU (с TDP до 240 Вт), причём поддерживать их работу на турбо-частотах гораздо дольше. С другой стороны, такой подход гарантирует единообразие работы обоих CPU и предсказуемость, что крайне важно в HPC-среде.
Таким образом, КПД теплоотвода достигает 90%, что позволяет использовать на входе горячую воду (буквально, до 50 °C) и достигать разницы температур на входе и выходе в 25 °C, что, в свою очередь, даёт возможность использования фрикулинга и сухих градирен, а не чиллеров. А это очевидная экономия на электроэнергии. Lenovo говорит о сокращении энергопотребления на 30-40% при попутном росте производительности в сравнении с обычным воздушным охлаждением. При этом для Lenovo Neptune это не предел — будущие шасси будут иметь уже девять, а не шесть блоков питания. Они тоже получат жидкостное охлаждение как и грядущие ускорители NVIDIA в форм-факторе SXM3 с TDP на уровне 300 Вт, для которых эти БП и понадобятся.
Впрочем, о гибридных и воздушных системах охлаждения Lenovo тоже не забывает и старается сделать их более эффективными. В частности, машины ThinkSystem SD530 для шасси D2, которые находятся где-то посередине между классическими HPC-системами и просто высокоплотными решениями, ту же задачу по поддержке равных температур у обоих CPU внутри узла решают иным путём. Первый CPU, стоящий на пути воздушного потока, имеет обычный радиатор, а второй, за ним, может оснащаться Т-образным радиатором Thermal Transfer Module с тепловыми трубками, который за счёт такой формы имеет большую площадь оребрения и захватывает более холодный поток, проходящий мимо первого процессора. Это позволяет даже для воздушной СО использовать CPU с TDP до 205 Вт.
Сама же SD530 является привычной модульной 2U-системой для четырёх узлов с общим для всех блоком, содержащем кулеры, два БП, 16 слотов PCIe и сетевые интерфейсы. Узлы могут быть высотой 1U и содержать два процессора Intel Xeon Scalable + 16 слотов памяти + адаптер для пары M.2. Или же 2U — всё то же самое + два полноразмерных PCIe-ускорителя. Стоит ждать и вариантов с ускорителями формата SXM3. Все типы узлов поддерживают установку 2,5” накопителей: 6 × SAS/SATA или 4 × NVMe на каждый узел.
Для задач, активно использующих ускорители в формате PCIe-карт, у Lenovo есть отдельное 2U-решение — ThinkSystem SR670. Платформа базируется на двух CPU Intel Xeon Scalable, имеет 24 разъёма для модулей памяти, предлагает 8 посадочных мест для 2,5” SATA-накопителей и пару слотов M.2. Отличительная черта конструкции шасси — 3 корзины с разъёмами PCIe. Одна предназначена для установки сетевых адаптеров, она имеет 2 слота x16 и 1 слот x4. Две другие, съёмные, имеют по четыре слота каждая. В каждую из них можно установить либо два полноразмерных ускорителя с шиной x16, либо четыре четыре однослотовых ускорителя с шиной x8.
Помимо аппаратной части не менее важна и программная. Совместно с суперкомпьютерным центром университета Барселоны Lenovo уже некоторое время занимается проектом EAR — Energy Aware Runtime. EAR позволяет оценить реальную эффективность приложений, выявить зависимость производительности от частоты и, как следствие, энергопотребления кластера, суперкомпьютера или ЦОД в целом. После оценки EAR автоматически управляет работой системы в целом и позволяет добиться не только повышения энергоэффективности, но и предсказуемости времени вычислений. Ведь порой бывает так, что за 1% прироста скорости работы приходится «заплатить» ростом частоты и тепловыделения CPU на десятки процентов, что далеко не всегда оправданно.
Впрочем, все эти решения были представлены в последние год-полтора, а вот из действительно свежих продуктов, которые как раз отвечают современным тенденциям, на SC19 Lenovo показала edge-сервер ThinkSystem SE350 для пограничных или, как их ещё называют, периферийных вычислений. Такие машины ставятся в буквальном смысле на границе сети и (пред-) обрабатывают данные с датчиков интернета вещей, умных устройств, промышленного оборудования, интеллектуальных систем видеонаблюдения и так далее. В общем, в тех случаях, когда потоки данных разумнее препарировать на месте, или когда иного выбора просто нет.
К таким системам предъявляются особые требования, которые не всегда легко исполнить одновременно: высокая производительность, компактность, автономность, малое энергопотребление, повышенная надёжность, готовность работать в неблагоприятных условиях. С приходом 5G подобные системы станут крайне востребованными в сочетании с ИИ в больших ЦОД, и ближайшее будущее как раз за ними, считает Рик Купман. В качестве примера подобного удачного решения он привёл опыт компании, занимающейся ветроустановками, которая смогла за счёт объединения прогнозов погоды из внешнего источника и данных с множества датчиков турбин по всему миру резко повысить эффективность и надёжность работы последних, получив возможность интеллектуально управлять ими и заранее предсказывать поломки.
Что касается SE350, то это узкий 1U-сервер на базе Intel Xeon D-2100 — до 16 ядер и до 256 Гбайт RAM. Дисковая подсистема поддерживает установку двух накопителей M.2 2280 и до десяти M.2 22110. Шасси позволяет установить низкопрофильную карту вроде NVIDIA T4 или другой ускоритель на базе FPGA/ASIC/GPU. Сетевых интерфейсов на выбор великое множество: доступны проводные порты 1/10GbE в различных сочетаниях (в том числе с коммутатором), адаптеры Wi-Fi/Bluetooth и модемы 3G/4G, а в будущем и 5G. Питается сервер от внешнего источника DC 48 В. Возможна установка как отдельной машины, так и шкафа на 2-4 узла вкупе с БП. Устройство рассчитано на работу в диапазоне от 0 до 55 °C, есть варианты исполнения с пылевлагозащитой. Кроме того, предусмотрены различные программные и аппаратные системы защиты данных и оборудования.
По словам представителя Lenovo, у нас в стране основными HPC-заказчиками являются ведущие научно-исследовательские и образовательные институты и университеты, крупнейшие государственные и частные компании. Любопытно, что в целом растёт интерес к GPU-решениям. Дело не только в возросшей роли машинного обучения, но и в активном портировании имеющихся приложений с CPU на GPU.