10,2 тыс подписчиков

⚡️ MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Новая стратегия обучения MoE-tuning для LVLM, которая позволяет построить модель с огромным количеством параметров, которая эффективно решает проблему снижения производительности, обычно связанную с мультимодальным обучением и разреженностью модели.

Этот фреймворк уникальным образом активирует только топ-к экспертов через маршрутизаторы во время развертывания, оставляя остальных экспертов неактивными.

Обширные эксперименты подчеркивают возможности MoE-LLaVA в визуальном понимании и ее потенциал для уменьшения галлюцинаций в результатах моделирования.

Примечательно, что при наличии всего 3 миллиардов редко активируемых параметров MoE-LLaVA демонстрирует производительность, сравнимую с LLaVA-1.5-7B на различных наборах данных для визуального понимания, и даже превосходит LLaVA-1.5-13B в тестах на галлюцинации объектов.

🖥 Code: https://github.com/PKU-YuanGroup/MoE-LLaVA

🚀 Jupyter: https://github.com/camenduru/MoE-LLaVA-jupyter

📚 Paper: https://arxiv.org/abs/2401.15947

@machinelearning

⚡️ MoE-LLaVA: Mixture of Experts for Large Vision-Language Models Новая стратегия обучения MoE-tuning для LVLM, которая позволяет построить модель с огромным количеством параметров, которая...

Около минуты

2 февраля 2024