204 подписчика

💡 Alibaba Cloud переосмысляет эпоху GPU: как Aegaeon меняет будущее ИИ-инференса

21 октября 202521 окт 2025

2 мин

В октябре 2025 года мир искусственного интеллекта получил неожиданную новость: Alibaba Cloud представила систему Aegaeon, которая позволила снизить потребление GPU Nvidia на 82%. Это не просто оптимизация — это фактически переворот в том, как работают дата-центры. Alibaba Cloud провела серию масштабных тестов внутри своей платформы Model Studio, обслуживающей десятки LLM (Large Language Models) размером до 72 млрд параметров. В процессе тестов число видеокарт Nvidia H20 сократилось с 🚀 1 192 до всего 213 — и при этом производительность не упала, а, наоборот, возросла до 9 раз. Главная идея Aegaeon — токен-уровневое расписание (token-level scheduling).

Если раньше каждый GPU был «прикован» к одной модели, то теперь Aegaeon дробит вычислительные задачи на уровне отдельных токенов текста и распределяет их между разными моделями. 📦 Это похоже на то, как диспетчер аэропорта разруливает взлёт и посадку множества самолётов на одной полосе.

Каждая LLM получает ровно столько времени на GPU, с

Оглавление

🌐 Что произошло
⚙️ Как это работает
🔬 Почему это важно

В октябре 2025 года мир искусственного интеллекта получил неожиданную новость: Alibaba Cloud представила систему Aegaeon, которая позволила снизить потребление GPU Nvidia на 82%. Это не просто оптимизация — это фактически переворот в том, как работают дата-центры.

🌐 Что произошло

Alibaba Cloud провела серию масштабных тестов внутри своей платформы Model Studio, обслуживающей десятки LLM (Large Language Models) размером до 72 млрд параметров. В процессе тестов число видеокарт Nvidia H20 сократилось с 🚀 1 192 до всего 213 — и при этом производительность не упала, а, наоборот, возросла до 9 раз.

⚙️ Как это работает

Главная идея Aegaeon — токен-уровневое расписание (token-level scheduling).
Если раньше каждый GPU был «прикован» к одной модели, то теперь Aegaeon дробит вычислительные задачи на уровне отдельных токенов текста и распределяет их между разными моделями.

📦 Это похоже на то, как диспетчер аэропорта разруливает взлёт и посадку множества самолётов на одной полосе.
Каждая LLM получает ровно столько времени на GPU, сколько нужно в данный момент — и ни миллисекундой больше.

Aegaeon сочетает два приёма:
💠 Пуллинг GPU-ресурсов — объединение видеокарт в общий «резервуар» для разных моделей.
⚙️ Автоматическое масштабирование по токенам — динамическое перераспределение мощности в зависимости от длины вывода модели.

В результате эффективность использования видеокарт выросла в разы, а облако стало потреблять меньше энергии, памяти и охлаждения.

🔬 Почему это важно

В условиях, когда США ограничивают экспорт продвинутых GPU в Китай, такие решения — буквально вопрос выживания для китайских облачных гигантов. Nvidia H20 — одна из немногих моделей, легально доступных в стране, и каждая карта на счету.

Alibaba Cloud показала, что инновации в софте могут быть не менее революционными, чем новые чипы. Вместо того чтобы ждать очередного поколения GPU, инженеры просто научились выжимать из имеющихся максимум.

💭 Моё мнение

Aegaeon — это не просто оптимизация вычислений. Это шаг к «когнитивной эластичности» инфраструктуры. В будущем мы можем увидеть, как крупные облачные компании станут управлять GPU-парками так же гибко, как сейчас Kubernetes управляет контейнерами.

Интересно, что подобные подходы могут лечь в основу «AI hypervisor»-систем, где ресурсы GPU будут распределяться не между приложениями, а между мыслями моделей — на уровне токенов, смысловых единиц и контекста.

Если Alibaba действительно сможет масштабировать Aegaeon за пределы своей экосистемы, это станет вызовом не только для Nvidia, но и для всей индустрии серверного ИИ.

🧩 Технический штрих

В статье, представленной на ACM SOSP 2025 в Сеуле, инженеры из Пекинского университета и Alibaba описали, что система опирается на внутреннюю сеть eRDMA, обеспечивающую низкую задержку между GPU. Это объясняет, почему Aegaeon показывает такой прирост в «goodput» — эффективной отдаче вычислений.

Сравнение с другими решениями:

⚡ ServerlessLLM — производительность ниже в 1.5–9 раз
🧠 MuxServe — не справился с пиковыми нагрузками при множестве LLM

🧭 Куда всё идёт

Aegaeon — сигнал всему рынку: эпоха «одна модель = один GPU» закончилась.
Теперь, когда каждый токен — это планировочная единица, эффективность становится новой валютой ИИ-инфраструктуры.

🔗 Источники: