Найти в Дзене
10,3 тыс подписчиков

📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров


Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.

Немного деталей:
⏩Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию.

⏩Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности.

⏩Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне.

⏩Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k.

⏩Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора.

⏩Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов.


📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров  Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.
Около минуты