Найти в Дзене
Всё о IT

Nvidia представила графический процессор Blackwell B200, "самый мощный в мире чип" для искусственного интеллекта.

Обязательный чип искусственного интеллекта H100 от Nvidia сделал ее многотриллионной компанией, которая, возможно, стоит больше, чем Alphabet и Amazon, и конкуренты борются за то, чтобы наверстать упущенное. Но, возможно, Nvidia собирается расширить свое лидерство — с новым графическим процессором Blackwell B200 и “суперчипом” GB200.

Nvidia заявляет, что новый графический процессор B200 обеспечивает до 20 петафлопс мощности FP4 на 208 миллиардах транзисторов. Кроме того, в нем говорится, что GB200, который сочетает в себе два таких графических процессора с одним процессором Grace, может обеспечить в 30 раз большую производительность при выполнении рабочих нагрузок на основе логического вывода LLM, а также потенциально быть существенно более эффективным. По словам Nvidia, он “в 25 раз снижает стоимость и энергопотребление” по сравнению с H100.

Для обучения модели с параметрами 1,8 трлн ранее потребовалось бы 8000 графических процессоров и 15 мегаватт мощности, утверждает Nvidia. Сегодня генеральный директор Nvidia заявил, что 2000 графических процессоров Blackwell могут выполнять эту функцию, потребляя всего четыре мегаватта.

В тесте GPT-3 LLM со 175 миллиардами параметров Nvidia заявляет, что GB200 обладает несколько более скромной производительностью, в семь раз превышающей производительность H100, и Nvidia заявляет, что он предлагает в четыре раза большую скорость обучения.

Вот как выглядит один GB200. Два графических процессора, один центральный процессор, одна плата. Изображение: Nvidia
Вот как выглядит один GB200. Два графических процессора, один центральный процессор, одна плата. Изображение: Nvidia

Nvidia сообщила журналистам, что одним из ключевых улучшений является движок transformer второго поколения, который удваивает вычислительную мощность, пропускную способность и размер модели за счет использования четырех бит для каждого нейрона вместо восьми (таким образом, 20 петафлопс FP4, о которых я упоминал ранее). Второе ключевое отличие проявляется только при подключении огромного количества этих графических процессоров: коммутатор NVLink нового поколения, который позволяет 576 графическим процессорам взаимодействовать друг с другом с двунаправленной пропускной способностью 1,8 терабайта в секунду.

Для этого Nvidia потребовалось создать совершенно новый чип сетевого коммутатора с 50 миллиардами транзисторов и частью собственных встроенных вычислений: 3,6 терафлопс FP8, говорит Nvidia.

Nvidia заявляет, что добавляет в Blackwell как FP4, так и FP6. Изображение: Nvidia
Nvidia заявляет, что добавляет в Blackwell как FP4, так и FP6. Изображение: Nvidia

Ранее, по словам Nvidia, кластер всего из 16 графических процессоров тратил 60 процентов своего времени на общение друг с другом и только 40 процентов на реальные вычисления.

Разумеется, Nvidia рассчитывает на то, что компании будут закупать большое количество этих графических процессоров, и выпускает их в более крупных конструкциях, таких как GB200 NVL72, который подключает 36 процессоров и 72 графических процессора в одну стойку с жидкостным охлаждением, обеспечивая производительность обучения искусственного интеллекта в общей сложности 720 петафлопс или 1440 петафлопс (также известную как 1,4 эксафлопс) для вывода данных. Внутри него почти две мили кабелей, всего 5000 отдельных кабелей.

GB200 NVL72. Изображение: Nvidia
GB200 NVL72. Изображение: Nvidia

аждый лоток в стойке содержит либо два чипа GB200, либо два коммутатора NVLink, по 18 первых и девять вторых на стойку. В общей сложности, по словам Nvidia, одна из этих стоек может поддерживать модель с 27 триллионами параметров. По слухам, GPT-4 имеет модель с 1,7 триллионами параметров.

Компания заявляет, что Amazon, Google, Microsoft и Oracle уже планируют включить стойки NVL72 в свои предложения облачных сервисов, хотя неясно, сколько они покупают.

И, конечно, Nvidia рада предложить компаниям и остальные решения. Вот DGX Superpod для DGX GB200, который объединяет восемь систем в одной, в общей сложности 288 процессоров, 576 графических процессоров, 240 ТБ памяти и 11,5 эксафлопс вычислений FP4.

Изображение: Nvidia
Изображение: Nvidia

Nvidia заявляет, что ее системы могут масштабироваться до десятков тысяч суперчипов GB200, подключенных к сети со скоростью 800 Гбит / с с помощью нового Quantum-X800 InfiniBand (до 144 подключений) или Spectrum-X800 ethernet (до 64 подключений).

Мы не ожидаем сегодня услышать что-либо о новых игровых графических процессорах, поскольку эта новость появилась на конференции Nvidia по технологиям графических процессоров, которая обычно почти полностью сосредоточена на вычислениях на GPU и искусственном интеллекте, а не на играх. Но архитектура Blackwell GPU, ероятно., также будет использоваться в будущей линейке настольных видеокарт RTX 50-й серии.вероятно, также будет использоваться в будущей линейке настольных видеокарт RTX 50-й серии.