Исследователи DeepSeek представили новую архитектуру mHC, которая позволила обучить модели размером 3B, 9B и 27B без значительного увеличения вычислительных затрат. Исследователи компании DeepSeek разработали и внедрили новую архитектуру Multi-Head Latent Attention (mHC), которая позволила эффективно обучить языковые модели с 3, 9 и 27 миллиардами параметров без существенного увеличения вычислительных ресурсов. Традиционные модели с многоголовой внимательностью (MHA) требуют значительных вычислительных мощностей и памяти, особенно при увеличении размера модели. В отличие от них, архитектура mHC оптимизирует процесс обработки, проецируя тензоры запросов, ключей и значений в компактное латентное пространство. Это значительно снижает размер кэша ключей-значений (KV-кэша) и уменьшает требования к пропускной способности памяти, особенно на этапе автогенеративного декодирования. В ходе экспериментов было установлено, что модели, основанные на mHC, демонстрируют стабильную и эффективную произ
DeepSeek представила архитектуру mHC для эффективного обучения крупных языковых моделей
1 января1 янв
5
1 мин