В октябре 2025 года мир искусственного интеллекта получил неожиданную новость: Alibaba Cloud представила систему Aegaeon, которая позволила снизить потребление GPU Nvidia на 82%. Это не просто оптимизация — это фактически переворот в том, как работают дата-центры. Alibaba Cloud провела серию масштабных тестов внутри своей платформы Model Studio, обслуживающей десятки LLM (Large Language Models) размером до 72 млрд параметров. В процессе тестов число видеокарт Nvidia H20 сократилось с 🚀 1 192 до всего 213 — и при этом производительность не упала, а, наоборот, возросла до 9 раз. Главная идея Aegaeon — токен-уровневое расписание (token-level scheduling).
Если раньше каждый GPU был «прикован» к одной модели, то теперь Aegaeon дробит вычислительные задачи на уровне отдельных токенов текста и распределяет их между разными моделями. 📦 Это похоже на то, как диспетчер аэропорта разруливает взлёт и посадку множества самолётов на одной полосе.
Каждая LLM получает ровно столько времени на GPU, с