Найти в Дзене
10,2 тыс подписчиков

⚡️ MoE-LLaVA: Mixture of Experts for Large Vision-Language Models


Новая стратегия обучения MoE-tuning для LVLM, которая позволяет построить модель с огромным количеством параметров, которая эффективно решает проблему снижения производительности, обычно связанную с мультимодальным обучением и разреженностью модели.

Этот фреймворк уникальным образом активирует только топ-к экспертов через маршрутизаторы во время развертывания, оставляя остальных экспертов неактивными.

Обширные эксперименты подчеркивают возможности MoE-LLaVA в визуальном понимании и ее потенциал для уменьшения галлюцинаций в результатах моделирования.

Примечательно, что при наличии всего 3 миллиардов редко активируемых параметров MoE-LLaVA демонстрирует производительность, сравнимую с LLaVA-1.5-7B на различных наборах данных для визуального понимания, и даже превосходит LLaVA-1.5-13B в тестах на галлюцинации объектов.




⚡️ MoE-LLaVA: Mixture of Experts for Large Vision-Language Models  Новая стратегия обучения MoE-tuning для LVLM, которая позволяет построить модель с огромным количеством параметров, которая...
Около минуты