202,1 тыс подписчиков

Оказывается, 213 GPU могут работать, как 1192. Alibaba показала, как экономить на ускорителях при работе с большими языковыми моделями

20 октября 202520 окт 2025

1 мин

Задачи, связанные с ИИ, требуют огромных вычислительных мощностей. В частности, специализированных ускорителей или хотя бы GPU. Специалисты Alibaba, похоже, нашли способ в разы снизить количество необходимых графических процессоров. Alibaba Cloud рассказала, как её новая система пулов Aegaeon сокращает количество графических процессоров Nvidia, необходимых для обслуживания больших языковых моделей. Если точнее, сокращает на невероятные 82%. Aegaeon — это планировщик времени вывода, разработанный для максимального использования графических процессоров во многих моделях с пиковой или непредсказуемой нагрузкой. Вместо того, чтобы, как обычно, привязывать один ускоритель к одной модели, Aegaeon виртуализирует доступ к графическим процессорам на уровне токенов, позволяя планировать небольшие фрагменты работы в общем пуле. С практической точки зрения это означает, что один ускоритель H20 (авторы использовали именно их) может обслуживать несколько различных моделей одновременно, при этом обще

Alibaba Cloud рассказала, как её новая система пулов Aegaeon сокращает количество графических процессоров Nvidia, необходимых для обслуживания больших языковых моделей. Если точнее, сокращает на невероятные 82%.

Aegaeon — это планировщик времени вывода, разработанный для максимального использования графических процессоров во многих моделях с пиковой или непредсказуемой нагрузкой. Вместо того, чтобы, как обычно, привязывать один ускоритель к одной модели, Aegaeon виртуализирует доступ к графическим процессорам на уровне токенов, позволяя планировать небольшие фрагменты работы в общем пуле.

С практической точки зрения это означает, что один ускоритель H20 (авторы использовали именно их) может обслуживать несколько различных моделей одновременно, при этом общесистемная полезная производительность увеличивается в девять раз по сравнению со старыми бессерверными системами.

Система компании тестировалась в производственной среде в течение нескольких месяцев. За это время количество графических процессоров, необходимых для поддержки десятков различных LLM-моделей, объёмом до 72 млрд параметров, сократилось с 1192 до всего 213, то есть в пять с половиной раз.

Пока неясно, будет ли эта экономия распространяться за пределы стека Alibaba. В документе Alibaba Cloud не указана точная сетевая структура, использованная в бета-тестировании, но известно, что компания предлагает собственную RDMA-сеть eRDMA и имеет опыт создания высокоинтегрированных стеков обслуживания графических процессоров.

Гаджеты и электроника

5,73 млн интересуются