33 подписчика

DeepSeek открыла LPLB — балансировщик нагрузки на основе линейного программирования

21 ноября 202521 ноя 2025

4 мин

Вдруг и без шума DeepSeek опубликовала на GitHub проект LPLB (Linear-Programming-Based Load Balancer) — инструмент для динамической балансировки нагрузки в MoE (Mixture-of-Experts) моделях. Репозиторий доступен по ссылке: DeepSeek/LPLB на GitHub. Несмотря на ограниченное внимание в соцсетях и небольшое число звёзд, проект выглядит технически содержательным и заслуживает внимания исследователей и инженеров, работающих с распределённой тренировкой больших моделей. Зачем это нужно В MoE-архитектурах распределение токенов по «экспертам» часто оказывается неравномерным: некоторые эксперты получают слишком много токенов, перегружая соответствующие GPU, в то время как другие простаивают. Это «бутылочное горлышко» (wooden-barrel effect) критично замедляет обучение. LPLB предлагает подойти к проблеме формально: решать задачу оптимального перераспределения токенов с помощью линейного программирования для сглаживания нагрузки внутри EP (expert-parallel) групп. Что такое LPLB и как он работает LPL

Репозиторий доступен по ссылке: DeepSeek/LPLB на GitHub. Несмотря на ограниченное внимание в соцсетях и небольшое число звёзд, проект выглядит технически содержательным и заслуживает внимания исследователей и инженеров, работающих с распределённой тренировкой больших моделей.

Зачем это нужно

В MoE-архитектурах распределение токенов по «экспертам» часто оказывается неравномерным: некоторые эксперты получают слишком много токенов, перегружая соответствующие GPU, в то время как другие простаивают. Это «бутылочное горлышко» (wooden-barrel effect) критично замедляет обучение. LPLB предлагает подойти к проблеме формально: решать задачу оптимального перераспределения токенов с помощью линейного программирования для сглаживания нагрузки внутри EP (expert-parallel) групп.

Что такое LPLB и как он работает

LPLB — это параллельный балансировщик нагрузки, реализующий три основных шага:

Динамическая перестановка экспертов (reordering) на основе статистики текущей нагрузки.
Построение реплик (replicas) экспертов с учётом статической топологии.
Для каждого батча — решение задачи распределения токенов (оптимизация LP), чтобы минимизировать разброс нагрузки при ограничениях пропускных способностей «рёбер».

Ключевые компоненты:

Перестановки экспертов выполняются с помощью модуля EPLB (Expert Parallel Load Balancer).
Статистику реальной нагрузки можно получить от пользователя, собрать через torch.distributed или извлечь из буфера Deep-EP.
Встроенный LP-решатель использует легковесный внутримодульный (single-SM) IPM (interior-point method) и опирается на cuSolverDx и cuBLASDx для быстрого линейно-алгебраического бэкенда.

Идея — представить систему как граф с ребрами между оригинальными экспертами и их репликами, где «ёмкость ребра» — число токенов, которое можно направить на реплику в текущем батче. LP-оптимизация перераспределяет токены по этим ребрам, минимизируя неравномерность внутри EP-группы.

EPLB vs LPLB — в чём разница

EPLB ориентирован на статическую неравномерность (долговременное предпочтение одних экспертов вследствие данных).
LPLB заточен под динамические флуктуации — «шум» и вариации между батчами, которые вызывают мгновенные скачки нагрузки. LPLB дополняет подход EPLB, вводя механизм быстрого перераспределения в пределах батча.

Технические детали реализации

Решатель: лёгкий IPM, оптимизированный для запуска в одном SM, чтобы не съедать вычислительные ресурсы.
Нижний уровень: использование cuSolverDx и cuBLASDx для эффективных операций.
Синхронизация нагрузки: вместо torch.distributed.allreduce LPLB применяет NVLINK + NVSHMEM для уменьшения коммуникационных задержек — поэтому для полного эффекта требуется инфраструктура с DeepEP.

Типичные топологии реплик

LPLB позволяет задавать распределение реплик через матрицу r2o. В доке описаны несколько типичных топологий:

Cube (куб): реплики внутри поднабора GPU с диагоналями — полезно для EP-подгрупп на 8 GPU.
Hypercube (гиперкуб): вариант для 16 GPU без диагоналей.
Torus (тор): реплики на соседних GPU в кольцевой/тороидальной структуре — даёт лучшее глобальное выравнивание, но требует больше локальной коммуникации.

Ограничения и предостережения

Автор(ы) проекта прямо указывают на текущие ограничения:

Игнорирование нелинейного времени вычислений: планировщик балансирует только по числу токенов, не учитывая нелинейную зависимость времени от grouped GEMM — в ряде сценарием это приведёт к suboptimal реальному времени выполнения.
Время решения: внутрикластерная оптимизация занимает порядка ~100 µs (межузловая — дольше). Для очень маленьких batch size эта задержка может оказаться значимой.
Экстремальные случаи: при крайне неравномерной глобальной нагрузке LPLB может уступать EPLB, так как избегает назначения нескольких реплик одному и тому же исходному эксперту.

Практическое значение и перспективы

LPLB — интересная попытка формализовать балансировку нагрузки в MoE через математическое программирование и реализовать её с учётом современной GPU-инфраструктуры. Основные сильные стороны:

Формальный оптимизационный подход вместо эвристик.
Интеграция с NVSHMEM и DeepEP для низкоуровневой коммуникационной эффективности.
Лёгковесный решатель, запускающийся на уровне одного SM, что снижает накладные расходы.

Однако до промышленной зрелости ещё далеко: проект помечен как раннее исследование, и авторам нужно будет продемонстрировать реальные бенчмарки ускорения обучения и сравнение с существующими методами (включая учет grouped GEMM и масштабирование между узлами).

Заключение

Хотя публикация прошла почти незаметно, LPLB — достойный внимания инструмент для исследователей MoE. Он показывает, что при решении проблем масштабирования больших моделей полезно привлекать классические методы оптимизации (линейное программирование) и сочетать их с низкоуровневыми коммуникационными трюками. Для инженеров, работающих с MoE и DeepEP-инфраструктурой, репозиторий может стать отправной точкой для экспериментов и дальнейшего развития техники балансировки.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/