20 подписчиков

DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей

1 января1 янв

1 мин

Исследователи DeepSeek представили новую архитектуру mHC, которая позволила обучить модели размером 3B, 9B и 27B без значительного увеличения вычислительных затрат. Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов. Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования. В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную произ

Исследователи DeepSeek представили новую архитектуру mHC, которая позволила обучить модели размером 3B, 9B и 27B без значительного увеличения вычислительных затрат.

Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов.

Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования.

В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную производительность, особенно на платформах с ограниченной пропускной способностью памяти. Это делает архитектуру mHC перспективным решением для будущих разработок в области искусственного интеллекта, позволяя создавать более крупные и сложные модели без значительного увеличения вычислительных затрат.

https://polites.news/1116.html