Добавить в корзинуПозвонить
Найти в Дзене
Машинное обучение

⚡️ Amazon поменяла архитектуру сетей в дата-центрах AWS - и это важно для AI-кластеров

Amazon представила Resilient Network Graphs, или RNG - новую архитектуру сети для дата-центров. По заявлению компании, она снижает потребность в железе на 69% и повышает throughput на 33%. Amazon уже с прошлого года постепенно внедряла RNG в своих дата-центрах, а теперь сделала её сетью по умолчанию для большинства AWS-нагрузок. Идея в том, чтобы уйти от классических fat-tree сетей. Fat-tree десятилетиями были удобны, потому что они предсказуемые и понятные в эксплуатации. Но у такой иерархии есть проблема: часть трафика упирается в узкие места наверху дерева, пока другие каналы простаивают. RNG делает сеть более плоской и квазислучайной. Вместо нескольких «привилегированных» маршрутов через верхние уровни появляется много независимых путей между серверами. Внутри два ключевых элемента: - Spraypoint - система маршрутизации, которая распределяет трафик по множеству разных путей - ShuffleBox - устройство для кабельной разводки, которое делает такую хаотичную на вид сеть реально упр

⚡️ Amazon поменяла архитектуру сетей в дата-центрах AWS - и это важно для AI-кластеров

Amazon представила Resilient Network Graphs, или RNG - новую архитектуру сети для дата-центров. По заявлению компании, она снижает потребность в железе на 69% и повышает throughput на 33%.

Amazon уже с прошлого года постепенно внедряла RNG в своих дата-центрах, а теперь сделала её сетью по умолчанию для большинства AWS-нагрузок.

Идея в том, чтобы уйти от классических fat-tree сетей.

Fat-tree десятилетиями были удобны, потому что они предсказуемые и понятные в эксплуатации. Но у такой иерархии есть проблема: часть трафика упирается в узкие места наверху дерева, пока другие каналы простаивают.

RNG делает сеть более плоской и квазислучайной. Вместо нескольких «привилегированных» маршрутов через верхние уровни появляется много независимых путей между серверами.

Внутри два ключевых элемента:

- Spraypoint - система маршрутизации, которая распределяет трафик по множеству разных путей

- ShuffleBox - устройство для кабельной разводки, которое делает такую хаотичную на вид сеть реально управляемой

То есть пакетам не обязательно всегда бежать по самому короткому пути. Spraypoint разбрасывает трафик через распределённые waypoint-точки и помогает находить много независимых маршрутов без экзотической памяти в коммутаторах.

Авторы проверяли RNG на двух реальных production-сетях Amazon и сравнивали с fat-tree на transport и storage-нагрузках.

Результат:

- производительность приложений на уровне fat-tree

- заметно больше независимых маршрутов

- оценочная экономия от 9% до 45%

- меньше простаивающей сетевой ёмкости

Если сеть лучше размазывает нагрузку и меньше упирается в congestion, это напрямую влияет на эффективность AI-кластеров.

arxiv.org/abs/2604.15261