DeepSeek и Пекинский университет представили "Энграмм" — новый модуль условной памяти для LLM, который эффективно хранит и извлекает знания, дополняя архитектуры MoE и предвещая будущий дизайн моделей ИИ. Компания DeepSeek в сотрудничестве с Пекинским университетом опубликовала новую научную статью, представляющую и открывающую исходный код «Энграмма» (Engram) — условного модуля памяти, разработанного для устранения нехватки эффективных механизмов извлечения знаний в современных больших языковых моделях. Среди соавторов статьи — основатель DeepSeek Лян Вэньфэн. Исследование предлагает условную память как новое измерение моделирования, которое дополняет парадигму условных вычислений моделей «Смесь экспертов» (Mixture-of-Experts, MoE). Авторы утверждают, что традиционные архитектуры Трансформера неэффективно имитируют извлечение знаний посредством вычислений. «Энграмм» переосмысливает классические N-граммные встраивания, обеспечивая поиск знаний со сложностью O(1) за счёт отделения хране
DeepSeek представляет модуль памяти “Энграмма” с открытым исходным кодом, открывая новое измерение для больших языковых моделей.
13 января13 янв
27
2 мин