Найти в Дзене

Команда Kimi внедрила Attention Residuals для улучшения LLM

Команда Kimi представила новое решение для нейросетей — Attention Residuals, которое улучшает эффективность языковых моделей (LLM), заменяя традиционные остаточные соединения на механизм внимания. Это решение позволяет более эффективно обрабатывать информацию на различных уровнях слоев модели. Текущие нейросети, использующие стандартные остаточные соединения, страдают от проблем с накоплением выходов слоев, что приводит к снижению их эффективности при увеличении глубины модели. Attention Residuals устраняет эту проблему с помощью механизма softmax-внимания, который позволяет каждому слою избирательно агрегировать представления предыдущих слоев с обучаемыми весами, зависимыми от входных данных. Для уменьшения памяти и расхода на связь команда предлагает Block AttnRes, который разбивает слои на блоки и обрабатывает их на уровне представлений блоков. Этот подход сохраняет преимущества полного Attention Residuals, но требует меньше ресурсов для вычислений. В экспериментах с масштабирование
Оглавление

Команда Kimi представила новое решение для нейросетей — Attention Residuals, которое улучшает эффективность языковых моделей (LLM), заменяя традиционные остаточные соединения на механизм внимания. Это решение позволяет более эффективно обрабатывать информацию на различных уровнях слоев модели.

Проблемы стандартных LLM

Текущие нейросети, использующие стандартные остаточные соединения, страдают от проблем с накоплением выходов слоев, что приводит к снижению их эффективности при увеличении глубины модели. Attention Residuals устраняет эту проблему с помощью механизма softmax-внимания, который позволяет каждому слою избирательно агрегировать представления предыдущих слоев с обучаемыми весами, зависимыми от входных данных.

Эксперименты и результаты

Для уменьшения памяти и расхода на связь команда предлагает Block AttnRes, который разбивает слои на блоки и обрабатывает их на уровне представлений блоков. Этот подход сохраняет преимущества полного Attention Residuals, но требует меньше ресурсов для вычислений. В экспериментах с масштабированием доказано, что такой подход обеспечивает стабильное улучшение по сравнению с традиционными методами.

Теперь модель Kimi Linear, включающая новейшую технологию, была предобучена на 1,4 триллионах токенов, что улучшает распределение градиентов. Результаты демонстрируют улучшение производительности во всех оцененных задачах. Инженеры и исследователи, работающие с нейросетями, могут применять эти новые технологии в своих проектах, улучшая качество и скорость обработки данных.

В дальнейшем ожидается активное применение Attention Residuals в других архитектурах и расширение использования в спектре задач, связанных с обработкой естественного языка.

The post Команда Kimi внедрила Attention Residuals для улучшения LLM appeared first on iTech News.