2100 подписчиков

Интегрированная фотоника NVIDIA объединит сотни ускорителей в единый кластер

19 декабря 202019 дек 2020

2 мин

В рамках NVIDIA GTC 2020 China компания рассказала о своих достижениях и планах. Одной из тем ключевого доклада конференции стал рассказ о наработках исследовательского подразделения NVIDIA Research в области становящейся всё более и более актуальной интегрированной кремниевой фотоники, без которой вычислительные системы будущего вряд ли обойдутся.

Сейчас скорость передачи данных для электрических соединений, говорит NVIDIA, достигает 50 Гбит/с на пару, в перспективе её можно увеличить до 100-200 Гбит/с, но прыгнуть выше этой планки будет уже очень трудно. Практически единственный путь в этом случае — переход на оптические линии связи. Это предполагает — по крайней мере сейчас, на стадии концепта — смену компоновки. В нынешних системах DGX/HGX на базе A100 максимальная конфигурация платы включает восемь ускорителей, расположенных горизонтально и объединённых NVSwitch.

Суммарная пропускная способность канала NVLink между двумя ускорителями составляет 600 Гбайт/с, а NVSwitch — 4,8 Тбайт/с. Но этим всё и ограничивается — длина NVLink-подключений составляет порядка 0,3 м. За пределы шасси они не выходят, так что сейчас всё в итоге упирается в намного более медленную шину PCIe 4.0 и подключенные к ней адаптеры, которые дают суммарную скорость всего в 500 Гбайт/с.

Такое несоответствие в скорости обмена данными внутри и между шасси ограничивает возможность эффективного масштабирования. Переход, к примеру, на InfiniBand NDR не решит проблему, так как даст лишь удвоение скорости. Поэтому-то NVIDIA видит будущее в интегрированных в ускорители оптических трансиверах на базе кремниевой фотоники.

Они позволят не только увеличить длину подключений до 20-100 м, что позволит объединить ускорители в пределах несколько стоек, а не только одного шасси, но и вдвое повысить энергоэффективность — с 8 пДж/бит для «меди» до 4 пДж/бит для «оптики». Как обычно, предполагается использование несколько длин волн (DWDM), каждая из которых будет нести 25-50 Гбит/с, в одном волокне, что даст суммарно от 400 Гбит/с до нескольких Тбайт/с.

Для работы с несколькими длинами будут использоваться кольцевые модуляторы. И всё это будет упаковано вместе с другим «кремнием». То есть это, в целом, та же схема, что мы видели ранее у Intel, да и у других вендоров тоже. Правда, NVIDIA пока не приводит ряд других технических характеристик, но уже говорит о возможности объединить до 18 ускорителей в одном шасси благодаря вертикальной ориентации карт и до 9 шасси в стойке, что даст пул из 171 карт. Для связи между пулами из них будут использоваться оптические коммутаторы NVSwitch, объединённые в сеть Клоза.