Задачи, связанные с ИИ, требуют огромных вычислительных мощностей. В частности, специализированных ускорителей или хотя бы GPU. Специалисты Alibaba, похоже, нашли способ в разы снизить количество необходимых графических процессоров. Alibaba Cloud рассказала, как её новая система пулов Aegaeon сокращает количество графических процессоров Nvidia, необходимых для обслуживания больших языковых моделей. Если точнее, сокращает на невероятные 82%. Aegaeon — это планировщик времени вывода, разработанный для максимального использования графических процессоров во многих моделях с пиковой или непредсказуемой нагрузкой. Вместо того, чтобы, как обычно, привязывать один ускоритель к одной модели, Aegaeon виртуализирует доступ к графическим процессорам на уровне токенов, позволяя планировать небольшие фрагменты работы в общем пуле. С практической точки зрения это означает, что один ускоритель H20 (авторы использовали именно их) может обслуживать несколько различных моделей одновременно, при этом обще
Оказывается, 213 GPU могут работать, как 1192. Alibaba показала, как экономить на ускорителях при работе с большими языковыми моделями
20 октября 202520 окт 2025
17
1 мин