С каждым новым поколением чипов увеличивать плотность транзисторов становится все труднее, поэтому чипмейкеры ищут другие пути повышения производительности своих процессоров, среди которых архитектурные инновации, увеличение размеров матрицы, многочиповые конструкции и даже чипы в масштабе пластины. Последнее пока удается только Cerebras, но, похоже, китайские разработчики тоже смотрят в их сторону. Судя по всему, они уже создали 256-ядерный мультичиплетный дизайн и изучают возможности перехода к масштабированию пластин, используя целую пластину для создания одного большого чипа.
Ученые из Института вычислительных технологий при Китайской академии наук представили передовой 256-ядерный мультичиповый вычислительный комплекс под названием Zhejiang Big Chip в недавней публикации в журнале Fundamental Research, сообщает The Next Platform. Мультичиплетный дизайн состоит из 16 чиплетов, содержащих по 16 ядер RISC-V и соединенных между собой обычным симметричным мультипроцессорным (SMP) способом с помощью сети-на-кристалле, так что чипсеты могут совместно использовать память. Каждая микросхема имеет несколько интерфейсов для соединения с соседними микросхемами через 2,5D интерпозер. Исследователи CAS утверждают, что конструкция масштабируется до 100 микросхем или до 1600 ядер.
GlobalWafers
Как сообщается, чипсеты Zhejiang производятся по 22-нм техпроцессу, предположительно компанией Semiconductor Manufacturing International Corp. (SMIC). Мы не знаем, сколько энергии будет потреблять сборка из 1600 ядер, соединенных между собой с помощью интерпозера и изготовленных по 22-нм техпроцессу. Однако, как отмечает The Next Platform, ничто не мешает CAS выпустить 1600-ядерный чип в масштабе пластины, что значительно оптимизирует энергопотребление и производительность за счет снижения задержек.
В статье исследуются пределы литографии и технологии чиплетов, а также обсуждается потенциал этой новой архитектуры для будущих вычислительных потребностей. Исследователи отмечают, что мультичиплеты могут применяться для создания процессоров для суперкомпьютеров экзафлопсного класса, чем сегодня занимаются компании AMD и Intel.
"Для нынешних и будущих экзафлопсных вычислений мы прогнозируем использование иерархической чиплетной архитектуры в качестве мощного и гибкого решения", - пишут исследователи. "Иерархическая чиплетная архитектура представляет собой множество ядер и множество чиплетов с иерархическими межсоединениями. Внутри чиплета ядра обмениваются данными с помощью межсоединений со сверхнизкой задержкой, а межчиплеты соединяются между собой с низкой задержкой, полученной благодаря передовой технологии упаковки, что позволяет минимизировать задержку на чиплете и эффект NUMA в такой высокомасштабируемой системе".
Science Direct
Между тем, исследователи из CAS предлагают использовать многоуровневую иерархию памяти для таких сборок, что потенциально может создать трудности с программированием таких устройств.
"Иерархия памяти содержит память ядра [кэш], память на чиплетах и внечиплетную память", - говорится в описании. "Память этих трех уровней различается по пропускной способности, задержкам, энергопотреблению и стоимости. В обзоре иерархически-чиповой архитектуры несколько ядер подключаются через кросс-коммутатор и совместно используют кэш. Это формирует структуру модуля, и модуль соединен между собой через внутрикристаллитную сеть. Несколько модулей образуют чиплеты, которые соединяются между собой через межчиповую сеть и затем подключаются к внечиповой памяти. Для полного использования такой иерархии требуется тщательное проектирование. Разумное использование пропускной способности памяти для балансировки рабочей нагрузки различных вычислительных иерархий может значительно повысить эффективность системы чиплетов. Правильное проектирование ресурсов коммуникационной сети может обеспечить совместное выполнение чиплетами задач с общей памятью".
В проекте Big Chip также могут быть использованы такие преимущества, как оптико-электронные вычисления, вычисления в ближней памяти и трехмерная стековая память. Однако в статье не приводится конкретных деталей реализации этих технологий и не рассматриваются проблемы, которые могут возникнуть при проектировании и создании таких сложных систем.
Между тем в The Next Platform предполагается, что CAS уже построила свой 256-ядерный мультичиповый вычислительный комплекс Zhejiang Big Chip. Отсюда компания может изучить производительность своего чиплета, а затем принять решение о создании системы-в-пакете с большим числом ядер, различными классами памяти и интеграцией в масштабе пластины.