Одна из главных проблем современных языковых моделей заключается в том, что после завершения обучения их знания фактически замораживаются.
Мир меняется каждый день. Появляются новые документы, исследования, события и данные. Но обученная LLM продолжает опираться только на ту информацию, которая была доступна на момент её обучения.
Казалось бы, решение очевидно — просто переобучить модель. Но на практике это может стоить миллионы долларов вычислительных ресурсов. Дообучение тоже не является идеальным вариантом: новые знания часто начинают вытеснять старые. А популярный сегодня RAG-подход не всегда справляется с задачами, где ответ приходится собирать сразу из нескольких документов.
Именно поэтому исследователи из Национального университета Сингапура, MIT CSAIL, A*STAR и SMART предложили новую архитектуру под названием MEMO (Memory as a Model). Вместо того чтобы постоянно обновлять саму языковую модель, они предлагают вынести память в отдельную специализированную систему.
Почему существующие подходы начинают упираться в потолок
Сегодня существует несколько способов добавить новые знания в языковые модели.
Первый и самый популярный — RAG (Retrieval-Augmented Generation).
Модель получает доступ к документам во время выполнения запроса и пытается найти в них нужную информацию. Такой подход хорошо работает для простых вопросов, но начинает испытывать сложности, когда ответ приходится строить на основе нескольких источников одновременно. Кроме того, качество сильно зависит от того, насколько удачно отработал поиск.
Второй вариант — постоянное дообучение модели.
Здесь возникает другая проблема. Новые данные могут ухудшать ранее усвоенные знания. Это явление известно как catastrophic forgetting. Кроме того, обучение крупных моделей требует огромных вычислительных ресурсов.
Третий подход использует латентную память в виде специальных представлений или soft-токенов. Но такие представления обычно жёстко привязаны к конкретной архитектуре модели и плохо переносятся между различными LLM.
Память отдельно, рассуждения отдельно
Главная идея MEMO заключается в разделении памяти и рассуждений.
Вместо одной огромной модели система использует две независимые сущности.
Первая — MEMORY Model.
Это отдельная языковая модель относительно небольшого размера, которая отвечает только за хранение знаний. Она обучается на выбранном наборе документов и запоминает факты, связи между сущностями и информацию из различных источников.
Вторая — EXECUTIVE Model.
Это основная языковая модель, которая остаётся полностью неизменной. Она не дообучается и не получает новые веса. Вместо этого она обращается к модели памяти, получает необходимые сведения и использует их для построения итогового ответа.
Интересно, что такой подход работает даже с закрытыми коммерческими моделями. В экспериментах использовались Qwen2.5-32B-Instruct и Gemini-3-Flash, причём доступ к внутренним весам основной модели вообще не требовался.
Как обучается модель памяти
Чтобы создать MEMORY Model, исследователи разработали специальный конвейер подготовки данных.
Его задача — превратить обычный набор документов в большой датасет вопросов и ответов, который затем используется для обучения модели памяти.
Процесс состоит из пяти этапов.
1. Извлечение фактов
Система извлекает как прямые факты из документов, так и информацию, которую можно получить косвенно на основе контекста.
2. Объединение знаний
Вопросы и ответы, связанные общей сущностью, периодом времени или отношениями между объектами, объединяются в более сложные пары.
3. Проверка и переписывание
Каждая пара проверяется на самодостаточность. Если вопрос содержит неоднозначные местоимения или требует внешнего контекста, он переписывается либо удаляется.
4. Раскрытие сущностей
Создаются специальные вопросы, в которых перечисляются свойства объекта, а ответом становится его название.
Этот этап помогает бороться с так называемым reversal curse — ситуацией, когда модель знает, что «A связано с B», но не может сделать обратный вывод, что «B связано с A».
5. Междокументный синтез
Самый важный этап всей системы.
Здесь создаются вопросы, ответы на которые требуют анализа сразу нескольких документов. Именно этот механизм позволяет модели связывать информацию между различными источниками. Удаление этого этапа снижало точность на NarrativeQA с 24% до 6,37%.
После подготовки данных MEMORY Model проходит стандартное обучение через SFT, а затем начинает работать как отдельный носитель знаний.
Как MEMO отвечает на вопросы
Во время работы система использует специальный многошаговый протокол взаимодействия между основной моделью и моделью памяти.
Шаг 1. Grounding
Сложный запрос разбивается на несколько небольших подзапросов. Каждый из них проверяет отдельный факт или ограничение.
Шаг 2. Определение сущности
Используя ответы модели памяти, система постепенно сужает круг возможных вариантов и определяет нужный объект.
Шаг 3. Сбор ответа
После определения сущности основная модель запрашивает дополнительные сведения и формирует окончательный ответ.
Интересно, что ответы модели памяти представляют собой компактные текстовые фрагменты фиксированного размера. Благодаря этому стоимость работы практически не зависит от размера базы знаний. В классическом RAG расходы растут вместе с объёмом документов.
Что показали тесты
Для оценки эффективности MEMO использовались три популярных бенчмарка:
- BrowseComp-Plus;
- NarrativeQA;
- MuSiQue.
Результаты оказались весьма интересными.
На NarrativeQA система получила 53,58%, тогда как HippoRAG2 показал лишь 23,21%.
На MuSiQue MEMO достиг 60,20% против 57,00% у HippoRAG2.
На BrowseComp-Plus результат составил 66,67%, немного опередив HippoRAG2 с его 66,33%.
Особенно интересным оказался другой эксперимент.
Когда основную модель заменили с Qwen2.5-32B-Instruct на Gemini-3-Flash, MEMORY Model вообще не переобучалась, но качество работы выросло сразу на нескольких бенчмарках. Это подтверждает, что память действительно может существовать как отдельный независимый модуль.
Устойчивость к шуму
Одна из хронических проблем RAG заключается в том, что лишние документы могут заметно ухудшать результаты поиска.
Чтобы проверить устойчивость MEMO, исследователи начали добавлять в корпус нерелевантные документы.
HippoRAG2 и NV-Embed-V2 теряли до 6,22% точности.
MEMO при тех же условиях показал изменение всего на +0,55%, что находится практически в пределах статистической погрешности.
Можно ли обновлять знания без полного переобучения
Да.
Когда появляется новый набор документов, система обучает отдельную новую MEMORY Model, а затем объединяет её с существующей моделью памяти через механизм model merging.
Для объединения используется метод TIES merging.
Экономия вычислений получается весьма серьёзной.
Для двух наборов данных требуется примерно на 33% меньше вычислительных ресурсов по сравнению с полным переобучением. Если количество независимых корпусов увеличивается до десяти, выигрыш достигает 5,5 раза.
Хотя такой подход немного уступает полному переобучению по качеству, он всё равно показывает результаты выше большинства retrieval-бейзлайнов.
Что это значит для будущего LLM
Последние несколько лет индустрия пытается решить одну и ту же задачу: как добавлять новые знания в языковые модели без дорогостоящего переобучения.
MEMO предлагает довольно необычный ответ.
Вместо того чтобы постоянно обучать огромную LLM заново, память становится отдельным модулем, который можно обновлять, объединять с другими моделями памяти и даже использовать вместе с разными языковыми моделями.
Если такой подход продолжит показывать хорошие результаты на более крупных масштабах, он может стать серьёзной альтернативой не только традиционному RAG, но и постоянному дообучению моделей.
А это означает, что будущие ИИ-системы смогут получать новые знания намного быстрее и дешевле, чем сегодня.