Команда Kimi представила новое решение для нейросетей — Attention Residuals, которое улучшает эффективность языковых моделей (LLM), заменяя традиционные остаточные соединения на механизм внимания. Это решение позволяет более эффективно обрабатывать информацию на различных уровнях слоев модели. Текущие нейросети, использующие стандартные остаточные соединения, страдают от проблем с накоплением выходов слоев, что приводит к снижению их эффективности при увеличении глубины модели. Attention Residuals устраняет эту проблему с помощью механизма softmax-внимания, который позволяет каждому слою избирательно агрегировать представления предыдущих слоев с обучаемыми весами, зависимыми от входных данных. Для уменьшения памяти и расхода на связь команда предлагает Block AttnRes, который разбивает слои на блоки и обрабатывает их на уровне представлений блоков. Этот подход сохраняет преимущества полного Attention Residuals, но требует меньше ресурсов для вычислений. В экспериментах с масштабирование
Команда Kimi внедрила Attention Residuals для улучшения LLM
17 марта17 мар
1 мин