⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости Современные LLM используют Mixture-of-Experts (MoE): задачи распределяются между “экспертами” через специальный роутер. Проблема? Роутер по сути угадывает. Он не знает, какой эксперт в чём действительно силён. 👉 В итоге: - часть экспертов недоиспользуется - часть получает нерелевантные задачи - модель теряет эффективность 🧠 Что сделали исследователи Они добавили дополнительное правило обучения (auxiliary loss), которое: заставляет роутер выбирать экспертов строго по их реальным “навыкам”. Как это работает: - в систему подается маленький “тестовый” сигнал - проверяется, какой эксперт реагирует сильнее - роутер обучается совпадать с этим выбором 📈 Результат - модели до 15B параметров - стабильный рост качества на бенчмарках - без увеличения latency и стоимости 💡 Почему это важно Теперь MoE: - становится более специализированным - лучше использует вычисления - дает больше качества за те же д
⚡️ ByteDance нашли способ сделать MoE-модели реально умнее без увеличения стоимости
СегодняСегодня
1
1 мин