1 подписчик

HPE Superdome Flex: новый мейнфрейм для дата-центров

25 октября 202125 окт 2021

13 мин

Не каждую нагрузку можно разбить на части и распределить по относительно свободно соединённому кластеру дешёвых серверных узлов на X86. Некоторые задачи гораздо лучше выполнять на больших системах с общей памятью. Вслед за заявлением IBM о выпуске Power E1080 Denali на основе Power10 мы решили подробно изучить его архитектуру, а также поговорить о рынке для машин с четырьмя или более процессорными сокетами.

Хотя четырёхсокетные машины интересны и обеспечивают достаточные ресурсы ядер ЦП и скорости памяти для многих средних и крупных компаний, всегда есть кто-то, кому нужна мощь побольше. В течение многих поколений процессоров Intel и IBM предлагали своим клиентам интегрированную электронику NUMA, позволяющую установить память в четыре или восемь сокетов, а IBM даже довела эту так называемую “бесклеевую” (glueless) технологию в своих серверах Power8 и Power9 (а теперь и Power10) аж до 16 сокетов.

Сама Intel поставляет шины UltraPath Interconnect (UPI), позволяющие обеспечить бесклеевую NUMA для систем с восемью сокетами, и, честно говоря, учитывая заявление о выпуске мощных процессоров Xeon SP Cooper Lake, сделанное в начале года, компания, вероятно, сможет расширить возможности систем. Дорожная карта Intel переполнена десятинанометровыми Xeon Ice Lake, выпуск которых постоянно откладывался. Поэтому когда Xeon SP Ice Lake наконец-то появились весной этого года, у Intel было гораздо лучшее ядро, чем в чипах Skylake или Cascade Lake, и даже лучше, чем ядра Cooper Lake. Но компания решила не сводить с ума производителей серверов сменой сокетов и сделала Xeon SP Ice Lake доступными только для машин с одним или двумя сокетами. А чип Cooper Lake, на самом деле не очень отличающийся от Xeon SP Skylake, стал доступным только для машин с четырьмя или восемью сокетами. Большое отличие Xeon SP Cooper Lake заключалось в том, что Xeon SP Skylake и Cascade Lake имели три шины UPI на сокет со скоростью 9,6 ГТ/с, а Xeon SP Cooper Lake имели шесть шин UPI на сокет со скоростью 10,4 ГТ/с.

Это означает наличие гораздо большей пропускной способности для соединения сокетов, а значит, и повышенную масштабируемость NUMA. Четырёхсокетный сервер Cooper Lake имеет конфигурацию all-to-all, как и четырёхсокетные серверы на основе Skylake и Cascade Lake, но в нём вдвое больше шин UPI, а это означает повышенную пропускную способность и чуть меньшую задержку при запуске. Также в новых серверах используется соединение twisted hypercube, которое, по сути, создаёт виртуальный сокет, состоящий из четырёхсокетной материнской платы с кольцевым соединением и объединяющий эти материнские платы вместе дополнительными шинами UPI, которые соединяют четыре сокета и связывают их в четырёхсокетные пары аналогично тому, как это происходило в старых двухсокетных машинах с NUMA. Схема выглядит вот так:

В большинстве случаев каждый ЦП соединён с каждым другим ЦП, но иногда для связи ЦП требуется два перехода, что увеличивает задержки некоторых операций доступа к памяти и обработки.

Тем не менее, повышение производительности восьмисокетной машины с Cooper Lake было критически важным аспектом, поскольку Intel никак не удавалось получить больше, чем 28 ядер на чип, а тактовые частоты не могли превзойти границу в 3 ГГц, потому что при создании Cooper Lake по-прежнему использовался 14-нанометровый техпроцесс. Летом 2020 года, когда был выпущен Cooper Lake, Intel знала, что он не получит нового ядра и нового кристалла с большим количеством ядер для четырёхсокетных и восьмисокетных машин до начала поставок в 2021 году Sapphire Rapids. Однако сегодня графики Sapphire Rapids нарушены и масштабный выпуск не начнётся до второго квартала 2022 года.

Неизвестно, окажется ли эта пауза слишком долгой для Intel или её клиентов, использующих мейнфреймы (Dell, Hewlett Packard Enterprise, Inspur, Cisco Systems и многих других). Особенность мейнфреймов заключается в том, что они развиваются медленно, и особенно в средних и крупных компаниях, где процесс заказа и оплаты оборудования требует созыва комитетов и длительного согласования. Компании обычно приобретают такие машины с заделом на будущее или расширяют их возможности в процессе работы, и могут использовать их в течение пяти, шести или даже семи лет. Разумеется, они бы с радостью ускорили процесс, но если у тебя на руках десятки или сотни ядер и десятки терабайт оперативной памяти, необходимых для многих нагрузок, то появление нового ядра не настолько важно, чтобы проходить весь цикл согласований, если только, конечно, не возникла потребность в резком повышении мощностей. Например, если компания осуществляет переход к базам данных и приложениям SAP HANA, не имея при этом достаточно мощной для этого машины. Мы знаем, что IBM и HPE любят такие моменты, потому что они единственные продают мощные машины, не являющиеся мейнфреймом IBM, отсюда и высокие цены на них. (Но будем честными: реализация LinuxOne мейнфрейма System z15 вполне бодра и вполне может справляться с Linux и HANA.)

Учитывая то, что у IBM есть новый мейнфрейм для этой сферы, а Intel и её OEM-партнёры (а может и несколько ODM для производителей облачных систем, желающих выполнять в своей инфраструктуре серьёзные нагрузки Spark или HANA) будут выпускать в следующем году новый мейнфрейм, мы решили, что настало подходящее время изучить семейство машин Superdome Flex компании HPE. Мы не приглядывались к Superdome Flex с тех пор, как линейка Superdome была переработана в машины с SGI NUMALink в ноябре 2017 года.

После выпуска весной прошлого года Xeon SP Cooper Lake компания HPE выпустила системы Superdome Flex 280, в которых не используется система соединений NUMALink 8. Эту систему HPE унаследовала, приобретя в ноябре 2016 года за 275 миллионов долларов производителя суперкомпьютеров SGI. Любопытно, что эта машина Superdome Flex 280 на самом деле стала потомком машины Integrity MC990X, которую HPE выпустила в феврале 2016 года в партнёрском сотрудничестве с SGI. Благодаря этому сотрудничеству HPE занималась перепродажей восьмисокетной системы SGI UV 300 на основе системы соединения NUMALink 7 производства SGI, потому что восьмисокетная реализация системы Intel для процессоров Xeon E7 слишком задержалась и оказалась при сравнении не особо эффективной.

Intel определённо удалось заставить NUMA работать с четырёхсокетными и восьмисокетными машинами на Xeon SP Cooper Lake, и это негативно повлияет на продажи мейнфреймов HPE и IBM. Клиенты, которые могут получить “стандартную” реализацию Intel, поступят именно так, а обеспокоенные возможностью упереться в потолок производительности или объёмов памяти этих машин начнут с с нижних версий HPE Superdome или IBM Power E1080. (Очень небольшое меньшинство выберет мейнфреймы IBM LinuxOne, но стоит помнить о том, что на многих мейнфреймах установлен стек Windows Server, а мейнфреймы и машины Power Systems компании IBM несовместимы с Windows.)

Вот схематическое изображение Superdome Flex 280, содержащее ошибку, которую мы вскоре исправим:

Как вы видите, эти две системные платы, показанные в документации HPE, не соединены по схеме twisted hypercube; на самом деле эти две материнские платы вообще не соединены. Мы показали это изображение, чтобы вы увидели, что на верхней и нижней материнской плате системы Superdome Flex 280 используются разные типы PCI-Express 3.0, с разной высотой, длиной и количеством каналов. В верхнем шасси 16 разъёмов, в нижнем - 12 разъёмов.

Вот как выглядят корпуса сзади:

На самом деле HPE Superdome Flex 280 имеет следующие топологии:

Одной из особенностей линейки Superdome Flex является то, что линейки серверов IBM Power8, Power9 и Power10 в семействе Power Systems не имеют богатого выбора вариантов процессоров, соответствующих разным требованиям к производительности и стоимости.

В линейке Superdome Flex 280 на машинах, имеющих два или четыре активных сокета на одном шасси, клиенты могут выбрать версию Gold или Platinum процессора Xeon SP Cooper Lake, но если необходима работа шести или восьми сокетов, то придётся выбрать версию процессора Platinum. Вот как выглядит узел Flex 280:

Если говорить конкретнее, то можно выбрать модель Cooper Lake H, поддерживающую 1,1 ТБ памяти DDR4 на сокет или модель HL, поддерживающую память постоянного хранения Optane серии 200, а также DRAM объёмом до 4,5 ТБ на сокет. (Нам становятся понятны задержки с выполнением дорожных карт, которые привели к задержкам перехода к восьми контроллерам памяти на сокет и придали важности памяти постоянного хранения Optane; также это даёт нам понять, почему Intel неохотно позволяет другим производителям чипов поддерживать Optane PMEM.) Superdome Flex 280 поддерживает Cooper Lake в версии Platinum, работающие с частотой от 2,5 ГГц до 3,9 ГГц, от 8 до 28 ядер, и от 150 до 250 Вт на сокет. Поддерживаемые машиной процессоры Cooper Lake в версии Gold работают с частотой от 2 ГГц до 2,8 ГГц, имеют от 16 до 24 ядер и энергопотребление от 150 до 165 Вт.

Все процессоры в системе должны быть одинаковыми и, честно говоря, странно, что версия Gold вообще предлагается, ведь её нельзя использовать в машинах с более чем четырьмя сокетами. Если вам нужна только четырёхсокетная машина HPE, то выберите ProLiant DL580, и этого будет достаточно. В противном случае возьмите Superdome Flex 280 с чипами Platinum, даже если изначально вы приобретаете шасси с четырьми узлами, чтобы на будущее иметь возможность расширения до шести или восьми сокетов.

Superdome Flex 280 имеет до 96 разъёмов памяти (по 12 на сокет) и поддерживает память DDR4 объёмом 32, 64, 128 и 256 ГБ. Нужно иметь очень вескую причину для покупки планок по 128 и 256 ГБ для любой машины, потому что они вдвое дороже на единицу объёма по сравнению с планками по 32 и 64 ГБ. В сервере с NUMA большая память имеет смысл. Но иногда вопрос в пропускной способности памяти, поэтому необходимо балансировать текущие и будущие потребности в объёмах с желанием заполнить все разъёмы памяти для получения максимальной пропускной способности. Это всегда становится сложной частью планирования объёма памяти.

Теоретически, при 96 разъёмах и планках памяти по 256 ГБ эта машина должна поддерживать до 24 ТБ памяти. Однако поскольку семейство процессоров Lake ограничено по контроллерам памяти, на самом деле система имеет потолок в 9 ТБ DRAM DDR4, и достичь его можно различными способами. Теоретически, имея максимум в 4,5 ТБ DRAM плюс Optane на каждый сокет, эта машина должна поддерживать 36 ТБ памяти постоянного хранения, но адресуемость самой машины ограничена 24 ТБ, так что об этом можно забыть. Как бы то ни было, возможности расширения памяти велики. Однако помните, что другие процессоры поддерживают до 2 ТБ или 4 ТБ на сокет памяти DRAM DDR4.

Используемые в Superdome Flex 280 узлы сильно отличаются от применяемых в машинах Superdome Flex, которые могут похвастаться системой соединений NUMALink 8 производства SGI, но не поддерживают Xeon SP Cooper Lake, ограничиваясь на данный момент версиями Skylake и Cascade Lake. Для сравнения: четырёхсокетные узлы, используемые в Power E1080 компании IBM будут практически идентичными будущему отдельному четырёхсокетному узлу Power E1050, который выпустят во втором квартале 2022 года. Это упрощает компании IBM производство и облегчает процесс апгрейдов для клиентов. Без сомнений, HPE хотела бы иметь единую линейку, и проще всего добиться этого - сделать так, чтобы Intel использовала в своих процессорах SGI NUMALink. (Да, смешная шутка…) На самом деле, гораздо вероятнее то, что Intel создаст бесклеевые 16-сокетные конфигурации из будущих Xeon SP. Вероятно, сокетов UPI хватит, чтобы реализовать их на будущих Platinum Xeon SP Sapphire Rapids.

Superdome Flex на основе системы NUMALink 8 способен масштабироваться от 4 до 32 сокетов, от 768 ГБ до 48 ТБ основной памяти и от 256 до 896 ядер, и всё это с одним образом системы. Очень интересно было бы порассуждать о создании 32-сокетной машины с 4-ядерными процессорами Xeon SP 8256 Platinum, работающими с частотой 3,8 ГБ, и с безумным объёмом основной памяти, например, 12 или 24 ТБ. Да, это всего лишь 128 ядер, но по сравнению со скромными 2,3 ГГц более дешёвых 28-ядерных чипов Xeon SP 8276 Platinum они потрясающе быстры. Но для тех типов нагрузок, которые поддерживают серверы NUMA (где наличие сотен потоков важнее гигагерцев) дешёвые чипы с большим количеством ядер и меньшей частотой позволять выполнять работу быстрее.

Процессоры Xeon SP Skylake, установленные в машинах Superdome Flex, не поддерживают Optane PMEM, однако эту память поддерживают чипы Cascade Lake. Существуют способы получить 48 ТБ максимально адресуемой памяти за меньшие деньги, не особо жертвуя при этом производительностью.

Полнофункциональный 32-сокетный Superdome Flex умещается в одну стойку с восемью четырёхсокетными корпусами. Вот как выглядит узел и корпус:

Отличительной чертой машины Superdome Flex является соединение NUMALink 8, которое компания HPE называет Flex ASIC, когда говорит о чипе, и Flex Grid, когда говорит о собранной соединительной системе, объединяющей от 8 до 32 сокетов. (Плата маршрутизатора Flex ASIC показана на изображении в начале статьи.)

Каждая четырёхсокетная материнская плата Superdome Flex использует две шины UPI для подключения к двум из трёх соседних процессоров, то есть две трети времени, когда сокету требуется доступ к удалённой памяти в пределах узла, он находится на расстоянии одного перехода, а одну треть времени удалённая память находится в двух переходах. При добавлении ещё одной шины UPI любая память может находиться на расстоянии одного перехода, и остаётся ещё одна шина UPI на каждый сокет для соединения с Flex ASIC. Имея в сумме по пять шин UPI на процессор, каждый сокет может иметь пару каналов до Flex ASIC, а также полное прямое подключение. Посмотрим, как изменится ситуация в дальнейшем. Но существует вероятность, что Intel решит использовать более быстрые каналы, а не увеличивать их число.

Вот как выглядит соединение Flex Grid:

Каждая пара Flex ASIC находится на одной системной плате, что обеспечивает два пути к каждому обрабатывающему комплексу в каждом узле систем Superdome Flex. Увеличение количества входящих и исходящих путей, а также количества вычислительных элементов может быть интересным при использовании будущего процессора Xeon SP.

Superdome Flex сильно ограничен по полосе пропускания соединения количеством шин UPI, исходящих из процессоров Xeon SP Skylake и Cascade Lake. По каким-то причинам HPE пока не поставляет Xeon SP Cooper Lake, и мы подозреваем, что материнские платы и соединения нужно будет полностью пересобирать, чтобы воспользоваться удвоением портов UPI, а также настраивать для подгонки под увеличенные скорости UPI процессоров Cooper Lake. HPE и Intel, без сомнений, проделают эту работу с грядущими Xeon SP Sapphire Rapids, и мы не удивимся, увидев 64-сокетную машину, имеющую 3584 процессорных ядер с единой памятью, насчитывающей сотни терабайт.

Вопрос заключается в том, нужен ли рынку такой монстр, который без сомнения станет самым быстрым сервером в мире? Допустим, у него будет 7168 потоков, работающих с частотой примерно 2,5 ГГц. Power E1080 компании IBM обеспечивает 1920 потоков с максимальной частотой 4,15 ГГц. Если HPE перенесёт Superdome Flex на Xeon SP Sapphire Rapids, и если Sapphire Rapids имеет четыре кристалла по 14 ядер каждый, то есть в сумме 56 ядер (по слухам), и если эти ядра способны работать с частотой примерно 2,5 ГГц, а HPE сможет расширить масштабируемость Superdome Flex до 64 сокетов (как способна NUMALink 8 с большим количеством шин UPI у процессоров Xeon SP), то такой монстр будет в два раза мощнее Power E1080. А если HPE сохранит масштабирование на уровне 32 сокетов, то Superdome Flex будут идти ноздря в ноздрю с Power E1080, при этом линейное масштабирование с большой вероятностью будет лучше у машины IBM. То есть истинная производительность может быть лучше на машине с меньшим количеством ядер и большими частотами, но только из-за линейности и скорости соединения.

Подождём и посмотрим. Точно известно только то, что лето 2022 года будет интересным для мейнфреймов.

Специалисты в PCPlanet.ru обладают компетенциями в серверном оборудовании, которые подкрепляются статусами производителей (для получения которых требуется объем продаж и сдача экзаменов), и готовы оказать услуги подбора и поставки серверного, и иного оборудования данного класса. Вы можете написать на e-mail, обратиться в онлайн или позвонить. Контакты.