Найти в Дзене
Машинное обучение

⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости

⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости Современные LLM используют Mixture-of-Experts (MoE): задачи распределяются между “экспертами” через специальный роутер. Проблема? Роутер по сути угадывает. Он не знает, какой эксперт в чём действительно силён. 👉 В итоге: - часть экспертов недоиспользуется - часть получает нерелевантные задачи - модель теряет эффективность 🧠 Что сделали исследователи Они добавили дополнительное правило обучения (auxiliary loss), которое: заставляет роутер выбирать экспертов строго по их реальным “навыкам”. Как это работает: - в систему подается маленький “тестовый” сигнал - проверяется, какой эксперт реагирует сильнее - роутер обучается совпадать с этим выбором 📈 Результат - модели до 15B параметров - стабильный рост качества на бенчмарках - без увеличения latency и стоимости 💡 Почему это важно Теперь MoE: - становится более специализированным - лучше использует вычисления - дает больше качества за те же д

⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости

Современные LLM используют Mixture-of-Experts (MoE): задачи распределяются между “экспертами” через специальный роутер.

Проблема?

Роутер по сути угадывает.

Он не знает, какой эксперт в чём действительно силён.

👉 В итоге:

- часть экспертов недоиспользуется

- часть получает нерелевантные задачи

- модель теряет эффективность

🧠 Что сделали исследователи

Они добавили дополнительное правило обучения (auxiliary loss), которое:

заставляет роутер выбирать экспертов строго по их реальным “навыкам”.

Как это работает:

- в систему подается маленький “тестовый” сигнал

- проверяется, какой эксперт реагирует сильнее

- роутер обучается совпадать с этим выбором

📈 Результат

- модели до 15B параметров

- стабильный рост качества на бенчмарках

- без увеличения latency и стоимости

💡 Почему это важно

Теперь MoE:

- становится более специализированным

- лучше использует вычисления

- дает больше качества за те же деньги

Фактически, это шаг к более “осознанному” распределению интеллекта внутри моделей.

И это может стать стандартом для будущих архитектур.

Paper: Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

arxiv. org/abs/2512.23447