Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

Positron: нам не нужна никакая навороченная HBM, чтобы конкурировать с Rubin от Nvidia

Pleb-tier LPDDR5x, по-видимому, достаточно хороша для ускорителей следующего поколения Asimov от Positron при поддержке Arm. На бумаге следующие поколения ускорителей Asimov от Positron, без сомнения названные в честь любимого автора научно-фантастических произведений, не выглядят серьезной конкуренцией для графических процессоров Nvidia Rubin. Тем не менее, стартап в области ИИ при поддержке Arm утверждает, что его чип для инференса будет генерировать в пять раз больше токенов за доллар, потребляя при этом в пять раз меньше энергии, чем новейшие ускорители Nvidia. Это, безусловно, смелые заявления, которые, по утверждению компании, возможны благодаря тому, что чип был разработан для поддержки крупномасштабных рабочих нагрузок инференса. Еще 230 миллионов долларов свежего капитала, вероятно, тоже не помешают. Asimov от Positron кардинально отличается от графических процессоров, популяризированных Nvidia и Arm. В отличие от предыдущего поколения систем Atlas, в которых использовалась па

Pleb-tier LPDDR5x, по-видимому, достаточно хороша для ускорителей следующего поколения Asimov от Positron при поддержке Arm.

На бумаге следующие поколения ускорителей Asimov от Positron, без сомнения названные в честь любимого автора научно-фантастических произведений, не выглядят серьезной конкуренцией для графических процессоров Nvidia Rubin.

Тем не менее, стартап в области ИИ при поддержке Arm утверждает, что его чип для инференса будет генерировать в пять раз больше токенов за доллар, потребляя при этом в пять раз меньше энергии, чем новейшие ускорители Nvidia.

Это, безусловно, смелые заявления, которые, по утверждению компании, возможны благодаря тому, что чип был разработан для поддержки крупномасштабных рабочих нагрузок инференса. Еще 230 миллионов долларов свежего капитала, вероятно, тоже не помешают.

Asimov от Positron кардинально отличается от графических процессоров, популяризированных Nvidia и Arm.

В отличие от предыдущего поколения систем Atlas, в которых использовалась память с высоким быстродействием (HBM), Asimov использует память LPDDR5x, которую можно расширить с помощью Compute Express Link (CXL) с 864 ГБ до 2,3 ТБ на чип. Большая емкость памяти означает больше места для параметров LLM и кэшей ключ-значение, используемых для отслеживания состояния модели.

Но хотя LPDDR5x дешевле и имеет большую емкость, чем HBM, она также чрезвычайно медленна по сравнению с ней.

Недавно анонсированные графические процессоры Nvidia Rubin оснащены 288 ГБ HBM4, обеспечивающей пиковую пропускную способность 22 ТБ/с. Для сравнения, Asimov, по-видимому, достигает максимум около 3 ТБ/с. Разница, по утверждению компании, заключается в том, что ее чипы могут фактически насыщать 90% этой пропускной способности, в то время как графические процессоры в реальном мире редко достигают 30%.

Однако эта статистика, по-видимому, относится только к памяти LPDDR5x на кристалле. Любое расширение памяти CXL будет ограничено 32 линиями PCIe 3.0 чипа, которых достаточно для пропускной способности около 256 ГБ/с. Насколько мы понимаем, Positron планирует использовать этот пул памяти CXL для хранения кэшей ключ-значение (KV-Cache), что теоретически должно значительно снизить сложность и накладные расходы при выгрузке KV-Cache.

Отметим, что даже если утверждение Positron о том, что графические процессоры на базе HBM достигают лишь около 30% пиковой пропускной способности, верно, память Rubin все равно примерно в 2,4 раза быстрее. И это мы еще не учитываем вычислительную мощность, которую Positron, похоже, обошла стороной в своих маркетинговых материалах.

Компания утверждает, что 400-ваттный чип оснащен систолическим массивом 512×512, работающим на частоте 2 ГГц, который будет поддерживать типы данных TF32, FP16/BF16, FP8, NVFP4 и Int4. Этот массив питается от серии ядер Armv9 и может быть переконфигурирован до размеров 128×512 или 512×128 в зависимости от того, что более выгодно для данной задачи. Но если вы надеялись на показатель терафлопс, мы его пока не видели.

Тем не менее, необработанная вычислительная мощность — лишь часть головоломки. Мало какие модели генеративного ИИ спроектированы для эффективной работы на одном чипе. Как мы видели снова и снова с такими чипами, как TPU от Google или Trainium от Amazon, производительность на чип часто менее важна, чем то, насколько эффективно они могут масштабироваться.

Каждый ускоритель Asimov будет оснащен пропускной способностью между чипами 16 Тбит/с. Это составляет 2 ТБ/с, что означает, что интерконнект почти так же быстр, как и память.

Четыре чипа Asimov образуют вычислительную платформу Titan от Positron. Но вместо автономной системы, эти машины больше похожи на вычислительные блейды в стойках Nvidia NVL72. Стартап в области ИИ утверждает, что до 4096 систем Titan могут быть объединены в один домен масштабирования с более чем 32 петабайтами памяти на борту.

Это достигается за счет использования чистой сетки «чип-чип» вместо коммутируемых фабрик масштабирования, которые мы видим в серверных архитектурах Nvidia или AMD. В этом отношении фабрика масштабирования Positron действительно больше похожа на кластеры Amazon Trainium 2 или TPU от Google, которые используют различные кольцевые, 2D и 3D тороидальные топологии.

Хотя этот подход устраняет необходимость в энергоемких коммутаторах пакетов, эти сетки нелегко переконфигурировать. Google обошла эту проблему, используя оптические коммутаторы, которые работают как телефонная станция для физического изменения способа подключения чипов друг к другу или для замены вышедших из строя ускорителей. Amazon, тем временем, приняла коммутируемые фабрики с Trainium 3, утверждая, что это обеспечивает лучшую масштабируемость для рабочих нагрузок инференса.

Positron пока не сообщила, как планирует управлять развертыванием кластера, но, похоже, нам не придется долго ждать, чтобы узнать. Ожидается, что Asimov начнет поставляться в следующем году. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Tobias Mann

Оригинал статьи