Прошло немало времени с того момента, как простые программируемые логические интегральные схемы (ПЛИС), также известные как вентильные матрицы, были доступны в «сыром» виде. На протяжении многих лет Xiinx, Altera и прочие производители FPGA добавляли жестко-закодированные IP для определенного функционала, которые в противном случае требовали синтеза с использованием имеющихся на чипе логических вентилей. То, что мы называем FPGA (ПЛИС), пожалуй, в большей степени, чем любое современное дискретное устройство, представляет собой полноценную систему на кристалле, содержащую все типы вычислительных ресурсов, память, а также ресурсы межсоединений, обеспеченные транзисторами этих устройств.
Компании занимаются разработкой этих гибридных вычислительных устройств не потому, что им нравится решать сложные задачи, а скорее потому, что клиенты желают использовать наиболее производительные устройства с гибкими вычислительными возможностями, которые присущи FPGA, а также совмещающие простоту программирования и высокую производительность аппаратных IP-блоков, на уровне производительности IP-блоков у ASIC. Непросто обеспечить этот баланс в рамках одного устройства, а тем более линейки устройств, предназначенных для различных сфер области IT. По этим причинам последние устройства Xilinx («линейка микросхем Everest»), выпуск которых начался в октябре 2018 года, называют адаптивными платформами ускорения вычислений или ACAP . Мы сомневаемся, что это наименование будет признано клиентами, и что они все равно не продолжат называть новые устройства “FPGA”. Самое главное здесь то, что Xilinx удалось выпустить более производительные FPGA серии Versal, которые пришел на смену основанному на FPGA устройству SmartNIC из линейки Alveo, о котором мы писали ранее.
Устройства Versal AI Core и Versal Prime были первыми в линейке, появившиеся в продаже в середине прошлого года, а новый продукт Versal Premium, усовершенствованная версия Versal Prime, способен справляться с более высокими нагрузками датацентров. Он является наследником FPGA серии Virtex UltraScale+, созданным Xilinx несколько лет назад. Устройства Versal Premium предназначены для увеличения производительности как общедоступных, так и закрытых облачных сервисов, способны справляться с широким спектром рабочих нагрузок в составе различных вычислительных, накопительных или сетевых узлов, обладают большей вычислительной мощностью, чем Versal Prime или Virtex UltraScale+. Микросхемы Versal Premium предназначены для использования в составе базовых и региональных сетей, а также в приложениях доступа, общегородских сетях телекоммуникаций и в сфере поставщиков услуг. Однако, мощные устройства Versal по-прежнему не поддерживают память HBM. Согласно дорожной карте Xilinx, запуск Versal HBM запланирован на 2021 год или немного более позднее время.
Дорожная карта Xilinx выглядит следующим образом:
Ниже представлена таблица, описывающая различные характеристики семейств устройств Versal:
По словам Майка Томпсона, старшего менеджера по линейке высокопроизводительных FPGA и ACAP в Xilinx, базовые телекоммуникационные сети станут крупнейшими потребителями устройств Versal Premium. Согласно данным из отчета Global Interconnection Index 2019, представленного оператором центра обработки данных Equinix, в период с 2018 по 2022 годы требования к полосе пропускания базовых сетей ежегодно будут увеличиваться на 51% (с учетом совокупного годового темпа роста) и достигнут 13300 Тбит/с во всем мире. Большую часть трафика базовой сети (свыше 50%) будут использовать предприятия, остальная будет распределена между поставщиками услуг.
«В настоящее время наблюдается «взрыв» данных по всем типам рабочих нагрузок, в связи с чем нагрузка на базовую сеть резко возросла. Теперь она включает датацентры, базовые транспортные сети и общегородские сети», - сказал Томпсон представителям The Next Platform. «Возросшие требования к полосе пропускания обусловлены увеличением объемов передаваемых данных за счет потокового видео и корпоративных приложений, которые все в большей степени ориентированы на сверхкрупные датацентры, а так же интеллектуальных устройств с широкополосным подключением, и устройств IoT. Я работал в этой отрасли довольно долго и знаю, насколько сложно удовлетворить эти постоянно возрастающие потребности в пропускной способности. С появлением 5G эти требования возрастут в 100 раз на уровне доступа к сети, поскольку ожидается прирост как количества устройств в сети, так и их пропускной способности. Это скорее даже весьма скромная оценка, и, возможно, реальные требования к пропускной способности могут увеличиться даже в 1000 раз.»
По словам Томпсона, эта возрастающая потребность в обработке увеличивающихся объемов данных как в самой базовой сети, так и в точках доступа к ней, служит одной из основсных движущих сил для развития отдела коммуникаций компании Xilinx.
Прежде чем мы углубимся в технические характеристики устройств Versal Premium, которые будут доступны в первой половине 2021 года и предназначены для категории клиентов, требующих длительное время для освоения новых технологий (прим. переводчика: т.е. участвующих в программе раннего доступа), рассмотрим архитектуру Versal. Далее мы обсудим различия между устройствами Premium и уже доступными на сегодняшний день устройствами Prime и AI Core.
У микросхемы Versal характеризуются универсальностью применения: они поддерживают вычислительные элементы, память и сети различных типов в рамках одного устройства. Часть, отвечающая за выполнение операций по вычислению, содержит процессорных 4 ядра. Для скалярных вычислений используется два двухъядерных чипа: ARM Cortex-A72 и Cortex-A5F для тяжелых и более легких рабочих нагрузок соответственно (прим. переводчика: A72-высокопроизводительное универсальное 64х-битное ядро, в то время как A5F-ядро для обработки процессов в реальном времени). Так называемые «интеллектуальные ядра» — это “твердые” IP-ядра, сплетенные вместе подобно блокам DSP или блокам Xilinx AI Engine (представляющих собой матричные блоки, используемые преимущественно для вычисления нейро сетей). Основу функциональных возможностей FPGA составляют адаптивные ядра, включающие таблицы поиска (LUT), которые реализуют гибкую функциональность, конфигурируемую с помощью оперативной памяти, встроенной в LUT. Эту весьма полезную особенность FPGA часто называют распределенной оперативной памятью. В составе адаптируемой логики содержится как встроенная блочная оперативная память, распределенная между логическими вентилями, так и более емкая память типа UltraRAM, инсталлируемая с 2016 года в устройства UltraScale+. Совокупно блочная и UltraRAM память в устройствах Versal Premium обеспечивает пропускную способность в 123 Гбит/с внутри FPGA-матрицы. Для сравнения, внутренняя кэш-память графического ускорителя Nvidia Tesla V100 имеет суммарную пропускную способность 14 Тбит/с, а кэш-память ускорителя Tesla T4 – всего 5 Тбит/с. Речь идет не об общей пропускной способности кристаллов. По этому параметру победу скорее всего одержит Tesla V100, по крайней мере до момента выпуска Xilinx Versal с HBM памятью.
Теперь рабочие нагрузки, потребляющие до нескольких сотен мегабит памяти в FPGA матрице, используют аппаратные контроллеры памяти DDR4 в архитектуре Versal. Это в некоторой степени отличается от “мягко закодированных” контроллеров внешней памяти, реализованных на LUT, использованных в устройствах Xilinx предыдущих поколений, что приводит к расходу ресурсов LUT. Например, в Virtex UltraScale+ VU9P около трети всех доступных LUT (примерно 200000) были использованы для формирования всего четырех контроллеров памяти, и также контроллера PCI-Express с поддержкой DMA. В устройствах Versal Premium перечисленные контроллеры жестко закодированы и теперь не используют память LUT. В конечном итоге устройства Xilinx перейдут на использование памяти HBM (Прим. переводчика: высокопроизводительная многопортовая динамическая память, расположенная на корпусе FPGA).
Ядро контроллера PCI-Express 5.0, обеспечивает поддержку DMA, а также протокола когерентности памяти ускорителя CCIX, который Xilinx продвигает на протяжении четырех лет, и уже используемый командой ARM в качестве NUMA-соединения между процессорами, работающими на шине PCI-Express. Контроллеры PCI-Express 5.0 также будут использовать протокол Intel CXL для последовательного подключения ускорителей. (Прим: NUMA - non-uniform memory access - соединение процессоров в кластер с помощью доступа к общей памяти)
Устройства Versal также оснащены трансиверами (SerDes), поддерживающими передачу сигналов PAM4 на скорости 112 Гбит/с, которые могут использоваться для непосредственной поддержки сигналов Ethernet и Interlaken (Interlaken – интерфейс межплатформной/межблочной коммуникации на основе пакетов в коммуникационном оборудовании Cisco Systems и Cortina Systems, представленный еще в 2006 году). Как устройства Xilinx, так и продукты Intel/Altera поддерживают высокоскоростные порты Interlaken в своих FPGA, что позволяет им соединяться друг с другом аналогичным способом межсоединению NUMA в ЦП (но с некоторыми отличиями). Устройства Versal Premium содержат порты Ethernet и Interlaken на основе 112 Гб/с трансиверов, обеспечивающие пропускную способность до 600 Гбит/с. Микросхемы также поддерживают последовательные каналы с пропускной способностью 32 Гбит/с и передачей сигналов с ненулевым возвратом (NRZ), и PAM4 с пропускной способностью 58 Гбит/с. 32 Гбит/с порты используются для портов Ethernet со скоростью от 10 Гбит/с до 100 Гбит/с, а порты 58 Гбит/с используются для скоростей до 400 Гбит/с. 112 Гбит/с порты предназначены для будущей Ethernet-сети на 800 Гбит/с, а также для каналов Interlaken.
Поскольку эти устройства не предназначены для высоких нагрузок при выполнении процессов машинного обучения (для этих задач Xilinx запустила линейку устройств Versal - AI), они не содержат жестко-закодированных ИИ-ядер, но при этом имеют жестко-закодированные DSP-ядра. Также, устройства Premium содержат криптографические ядра, обеспечивающие возможность шифрации/дешифрации данных со скоростью до 400 Гбит/с.
Устройства Versal Premium идеально подходят для применения в телекоммуникационной области. Они интегрируются как в оконечные устройства, так и в устройства для базовых сетей, обеспечивая реализацию на аппаратном уровне всех необходимых функций (безопасные высокоскоростные соединения, возможности FPGA для машинного обучения, обнаружение аномалий). Эти возможности обеспечиваются использованием среды программирования Vitis. Реализация вышесказанного показана на рисунке:
Провайдеры связи и поставщики услуг испытывают давление с различных сторон. Внедрение 5G окажет влияние на базовую сеть, т.к. при том же покрытии базовыми станциями, плотность передаваемого трафика сильно возрастет. Таким образом, потребуется увеличение полосы пропускания сети и количества вычислительных ресурсов, что потребует улучшения электрической и тепловой эффективности оборудования. Пример использования сетевой линейной карты на основе FPGA Versal Premium показан на рисунке ниже:
Здесь показано, насколько хорошо проявляют себя все компоненты Versal Premium. В красной части диаграммы указано, как программируемая логика используется для реализации логического вывода ИИ для определенных сетевых рабочих нагрузок:
Поскольку сеть содержит огромное количество изменяемых паттернов, для обеспечения ее беспрерывной работы и управления ее параметрами в режиме реального времени, машинное обучение должно быть неотъемлемой частью почти всех сетевых устройств. В составе нейронной сети ResNet, выполняющей задачи по классификации изображений, устройство Versal Premium VP1802 обеспечивает на 60% и 130% более высокую производительность, чем при подключении Nvidia Tesla V100 и Nvidia Tesla T4 соответственно. Аналогично, при использовании устройства Versal Premium в нейронной Yolov2 сети для обнаружения объектов, прирост производительности составит 4,6 и 7,7 раз соответственно. Отсюда следует, что распознавание изображений целесообразно выполнять в сети. Но действительно колоссальный прирост производительности обеспечивается при работе с алгоритмами по обнаружению аномалий методом “случайного леса(Random forest)”: Versal Premium VP1802 работает в 280 раз быстрее, чем 16-ядерный процессор Xeon E5-2687W с таковой частотой 3,4 ГГц. Если сравнивать с самыми мощными процессорами Intel, Versal Premium VP1802 справляется с указанной выше задачей в 310 раз быстрее, чем актуальный сегодня 8-ядерный Cascade Lake-R Xeon SP-6259 Gold стоимостью 3400 долларов. Даже в случае распределения задач между более дешевыми процессорами, FPGA продемонстрирует прирост скорости примерно в 200 раз. Это выгоднее, чем платить за высокопроизводительные процессорыные системы как Intel, так и других компаний.
Линейка FPGA (в смысле ACAP) Versal Premium включает 7 различных устройств, а именно:
Как видно, по мнению Xilinx, середина линейки его продуктов подходит для удовлетворения потребностей облачных сервисов. На данный момент релиз AWS F1 (Amazon Web Services) использует - микросхему Virtex UltraScale+. Вполне вероятно, что этот сервис перейдет на устройства Versal Premium, как только они станут доступны. Младшие версии устройств Versal Premium (в левой части таблицы) предназначены для оконечного оборудования и общегородских сетей, а старшие (справа в таблице) – для региональных и базовых сетей. Клиенты, желающие интегрировать Versal Premium в свои системы, могут уже сейчас получить пробные версии менее функциональных устройств Versal Prime, а затем перейти на использование Versal Premium, когда они появятся в продаже. Инструменты для работы с устройствами нового поколения будут доступны осенью текущего года, а поставки первых партий микросхем ожидаются в июне 2021 года.
Оригинал статьи.
Перевод: ГК Макро Групп - официальным дистрибьютором ПЛИС Xilinx.
Редактор: Владимир Вилукин, инженер по применению Xilinx.