10,3 тыс подписчиков
📌Mixture-of-Depths: распределение вычислений в LLM на основе трансформеров
Это совершенно гениальная идея сделать модели на основе трансформеров более эффективными.
Немного деталей:
⏩Mixture-of-Depths уменьшает объем внимания, доступного каждому уровню, и заставляет нейронную сеть обращать внимание на важную информацию.
⏩Использование Mixture-of-Depths минимизирует потери вычислений и обеспечивает динамическое распределение вычислений на основе входной последовательности.
⏩Mixture-of-Depths ограничивает количество токенов, которые могут участвовать в вычислениях self-attention и MLP на данном уровне.
⏩Токены, подлежащие обработке, определяются сетью с использованием механизма маршрутизации top-k.
⏩Метод Mixture-of-Depths использует статический граф вычислений с известными размерами тензора.
⏩Вычислительные затраты в целом предсказуемы, но динамичны и зависят от контекста на уровне токенов.
Около минуты
6 апреля 2024