Найти в Дзене

Alibaba придумала, как сократить потребность в GPU

Alibaba придумала, как сократить потребность в GPU Компания представила Aegaeon — систему, которая умеет делить вычислительные ресурсы между AI-моделями так эффективно, что количество нужных для их обслуживания ускорителей Nvidia сокращается на 82%. Проблема многих облачных сервисов, вроде Alibaba Cloud, в том, что они обрабатывают одновременно тысячи моделей. Но реальную нагрузку потребляют лишь несколько популярных, типа Qwen или DeepSeek. Остальные модели используются эпизодически, но всё равно сжигают кучу денег на электричество и железо. С Aegaeon ускорители динамически переключаются между моделями прямо во время генерации. Один GPU теперь может обслуживать до семи моделей (против двух-трёх в типичных системах), а задержки при переключении снижаются на 97%. Система уже работает на маркетплейсе моделей Bailian от Alibaba Cloud. https://www.scmp.com/business/article/3329450/alibaba-cloud-claims-slash-nvidia-gpu-use-82-new-pooling-system

Alibaba придумала, как сократить потребность в GPU

Компания представила Aegaeon — систему, которая умеет делить вычислительные ресурсы между AI-моделями так эффективно, что количество нужных для их обслуживания ускорителей Nvidia сокращается на 82%.

Проблема многих облачных сервисов, вроде Alibaba Cloud, в том, что они обрабатывают одновременно тысячи моделей. Но реальную нагрузку потребляют лишь несколько популярных, типа Qwen или DeepSeek. Остальные модели используются эпизодически, но всё равно сжигают кучу денег на электричество и железо.

С Aegaeon ускорители динамически переключаются между моделями прямо во время генерации. Один GPU теперь может обслуживать до семи моделей (против двух-трёх в типичных системах), а задержки при переключении снижаются на 97%.

Система уже работает на маркетплейсе моделей Bailian от Alibaba Cloud.

https://www.scmp.com/business/article/3329450/alibaba-cloud-claims-slash-nvidia-gpu-use-82-new-pooling-system