Найти в Дзене
ACTA UNIVERSI

Сравнение Colossus с другими суперкомпьютерами

Colossus от xAI — это специализированный кластер для обучения ИИ, построенный с фокусом на скорость развертывания и масштабируемость. В отличие от традиционных суперкомпьютеров (например, из списка TOP500, который измеряет производительность по бенчмарку HPL в FP64 — двойной точности), Colossus оптимизирован под низкую точность (FP8/INT8), где его мощность взлетает до сотен экзафлопс. Это делает прямое сравнение сложным: по HPL Colossus не подает данные в TOP500 (вероятно, из-за приоритета ИИ-задач), но по GPU-счету и пиковой мощности для AI он лидирует. На ноябрь 2025 года (66-й выпуск TOP500) топ — El Capitan (1.74 EF/s), но Colossus теоретически мог бы обогнать его, если бы участвовал в бенчмарке. Я сравню Colossus с топовыми системами: Суперкомпьютер Владелец/Место GPU/Ускорители Производительность Энергия (MW) Стоимость (млрд $) Назначение Примечание Colossus xAI (Мемфис, США) ~230 000 (150k H100 + 50k H200 + 30k GB200) ~6 EF/s (FP64 теор.); 396 EF/s (FP8 для AI) 250–300 ~7
Оглавление

Colossus от xAI — это специализированный кластер для обучения ИИ, построенный с фокусом на скорость развертывания и масштабируемость. В отличие от традиционных суперкомпьютеров (например, из списка TOP500, который измеряет производительность по бенчмарку HPL в FP64 — двойной точности), Colossus оптимизирован под низкую точность (FP8/INT8), где его мощность взлетает до сотен экзафлопс. Это делает прямое сравнение сложным: по HPL Colossus не подает данные в TOP500 (вероятно, из-за приоритета ИИ-задач), но по GPU-счету и пиковой мощности для AI он лидирует. На ноябрь 2025 года (66-й выпуск TOP500) топ — El Capitan (1.74 EF/s), но Colossus теоретически мог бы обогнать его, если бы участвовал в бенчмарке.

Я сравню Colossus с топовыми системами:

  • AI-кластерами (фокус на GPU и ИИ-мощности).
  • Топ-5 из TOP500 (общие суперкомпьютеры, часто для науки/симуляций).

Ключевые метрики сравнения

  • Производительность: Rmax (реальная, по HPL для TOP500) или эквивалент для AI (в FP16/FP8).
  • GPU/Ускорители: Количество и тип.
  • Потребление энергии: Пиковое (MW).
  • Стоимость: Примерная (на основе публичных оценок).
  • Назначение: ИИ vs. общее.

Суперкомпьютер

Владелец/Место

GPU/Ускорители

Производительность

Энергия (MW)

Стоимость (млрд $)

Назначение

Примечание

Colossus

xAI (Мемфис, США)

~230 000 (150k H100 + 50k H200 + 30k GB200)

~6 EF/s (FP64 теор.); 396 EF/s (FP8 для AI)

250–300

~7–20 (расширение)

ИИ-обучение (Grok)

Самый большой AI-кластер; построен за 122 дня. Планы: 1 млн GPU к 2026. Не в TOP500.

El Capitan

LLNL (США)

~40 000 AMD Instinct MI300A

1.74 EF/s (FP64 Rmax)

~30

~2–3

Наука/ядерная симуляция

#1 в TOP500 (ноябрь 2025); фокус на FP64.

Frontier

ORNL (США)

~37 000 AMD MI250X

1.35 EF/s (FP64 Rmax)

~21

~0.6

Общее (климат, физика)

#2 в TOP500; первый экзаскальный.

Aurora

ANL (США)

~63 000 Intel Data Center GPU Max

1.01 EF/s (FP64 Rmax)

~60

~0.5–1

Наука/ИИ (гибрид)

#3 в TOP500; поддержка AI, но не чистый.

Microsoft Azure Eagle

Microsoft (США)

~100 000 H100 экв.

~2–3 EF/s (оценка FP64); выше в AI

~150

~3–4

Облако/ИИ

#4 в TOP500; AI-ориентирован.

Meta AI Cluster

Meta (США)

100 000+ H100 экв.

~3 EF/s (оценка); 100+ EF/s AI

~150

~4

ИИ-обучение (Llama)

Не в TOP500; топ по GPU для AI.

JUPITER

EuroHPC (Германия)

~24 000 NVIDIA Grace Hopper GH200

~1 EF/s (FP64 Rmax)

~15

~1.4

Общее/ИИ

#5 в TOP500; первый экзаскальный в Европе.

Источники данных: TOP500 (ноябрь 2025), отчеты xAI/NVIDIA, оценки от Epoch AI и Visual Capitalist. Colossus лидирует по GPU (в 2–5 раз больше), но потребляет в 5–10 раз больше энергии. Стоимость растет экспоненциально: мощность AI-кластеров удваивается каждые 9 месяцев, энергия — каждые 13.

Подробный разбор

  1. Производительность: Colossus: В FP64 (для TOP500) — ~6 EF/s теоретически (с 100k H100 ~3.4 EF/s, с апгрейдами больше). В AI-режиме (FP8) — до 396 EF/s, что в 200+ раз быстрее типичных задач. Это делает его "самым мощным для ИИ" по словам Маска.
    Топ TOP500: Фокус на FP64 (научные расчеты). El Capitan — 1.74 EF/s реально, но для AI Colossus в 10–50 раз эффективнее (низкая точность ускоряет обучение моделей вроде Grok).
    Тренд: AI-системы (Colossus, Meta) обгоняют общие по сырой мощности, но TOP500 критикуют за "непредставительность" для ИИ (HPL — "FLOPs-only").
  2. Масштаб и hardware: Colossus: 230k+ GPU (NVIDIA Hopper/Blackwell), сеть Spectrum-X Ethernet. Расширение до 1 млн GPU (Colossus 2, 1 ГВт) сделает его крупнейшим дата-центром.
    Другие: TOP500-системы используют меньше ускорителей (El Capitan — 40k), но с CPU (AMD/Intel) для разнообразия задач. AI-кластеры (Meta, Microsoft) ближе: 100k GPU, но Colossus в 2 раза больше.
    Преимущество Colossus: Жидкостное охлаждение, Tesla Megapacks для стабильности. Построен за 122 дня (vs. годы для El Capitan).
  3. Энергия и экология: Colossus: 250–300 MW (как 250k домов), использует газовые турбины (422 MW временно). Критика от SELC за загрязнение (NOx-выбросы 1200–2000 т/год).
    TOP500: 15–60 MW (эффективнее). Тренд: AI-мощность удваивается ежегодно, что нагружает grids (Colossus — 20x Summit 2019).
    Сравнение: Colossus "прожорлив", но для ИИ это норма — Meta/OpenAI аналогично.
  4. Назначение и влияние: Colossus: Чисто ИИ (Grok, симуляции). Частный, быстрый рост (xAI тратит $1 млрд/мес).
    TOP500: Общее (ядерная физика, климат). Государственные (LLNL/ORNL), фокус на безопасности/науке.
    AI vs. Общее: Colossus ускоряет AGI, но поднимает риски (этика, энергокризис). TOP500 — для "традиционной" HPC.

В итоге, Colossus — король AI-суперкомпьютеров (топ-1 по GPU/мощности для ML), но в общем рейтинге (TOP500) уступает из-за специализации. К 2026 с 1 млн GPU он может перевернуть иерархию.