5 подписчиков

Вот полный перевод вашего текста на русский язык с сохранением структуры оригинала и технических терминов:Главная

3 дня назад3 дня назад

3 мин

РАЗРАБОТЧИК Присоединиться Технический блог Поиск по блогу Agentic AI / Generative AIEnglish Переосмысление памяти LLM: использование контекста как обучающих данных открывает модели, которые учатся во время тестированияДекоративное изображение 9 января 2026 Авторы: Ю Сун и Ейджин Чой+26 Нравится Обсудить (0) LTFREAI-сводкаМы всё чаще слышим о LLM с расширенным контекстным окном — разработчики обещают, что эти модели смогут удерживать в памяти целые истории диалогов, тома книг или несколько крупных кодовых баз одновременно. Однако на практике они продолжают допускать одни и те же ошибки. Нам всё ещё приходится вручную копировать и вставлять предыдущие фрагменты контекста, чтобы модель «поняла» разговор. Умный коллега быстро уловил бы закономерности, адаптировался бы и сделал выводы. Почему LLM так не могут?В этом посте мы рассматриваем принципиальное различие между памятью LLM и человеческой памятью, а затем представляем обучение во время тестирования с энд-ту-энд формулировкой (TTT-E2E

РАЗРАБОТЧИК

Присоединиться

Технический блог

Поиск по блогу

Agentic AI / Generative AIEnglish

Переосмысление памяти LLM: использование контекста как обучающих данных открывает модели, которые учатся во время тестированияДекоративное изображение

9 января 2026

Авторы: Ю Сун и Ейджин Чой+26

Нравится

Обсудить (0)

LTFREAI-сводкаМы всё чаще слышим о LLM с расширенным контекстным окном — разработчики обещают, что эти модели смогут удерживать в памяти целые истории диалогов, тома книг или несколько крупных кодовых баз одновременно. Однако на практике они продолжают допускать одни и те же ошибки. Нам всё ещё приходится вручную копировать и вставлять предыдущие фрагменты контекста, чтобы модель «поняла» разговор. Умный коллега быстро уловил бы закономерности, адаптировался бы и сделал выводы. Почему LLM так не могут?В этом посте мы рассматриваем принципиальное различие между памятью LLM и человеческой памятью, а затем представляем обучение во время тестирования с энд-ту-энд формулировкой (TTT-E2E) — наш новый подход, при котором LLM сжимает воспринимаемый контекст в свои веса с помощью задачи предсказания следующего токена.Рисунок 1. Масштабирование по длине контекста в терминах потерь (слева) и задержек (справа)Наши результаты показаны на рисунке 1: модель с полноценным вниманием (full attention) хорошо масштабируется по потере, но плохо — по задержке; рекуррентные сети (например, Mamba 2 и Gated DeltaNet), наоборот, масштабируются по задержке, но теряют точность. Только TTT‑E2E показывает сбалансированный рост по обеим метрикам.Слева: при длине контекста 128 000 токенов TTT‑E2E превращает худшую линию (серую) в лучшую (светло-зелёную). Потеря ∆ вычисляется как (потеря рассматриваемого метода) − (потеря трансформера с полным вниманием). Другие методы ухудшаются при увеличении контекста, TTT‑E2E сохраняет стабильное преимущество.Справа: как и RNN, TTT‑E2E показывает постоянное время вывода при любой длине контекста — на H100 он в 2,7 раза быстрее полного внимания для 128K контекста и в 35 раз быстрее для 2M контекста. Все модели имеют по 3 млрд параметров и обучены на 164 млрд токенов.Масштабирование по длине контекста одновременно по потерям и задержке остаётся основной проблемой исследований длинного контекста и LLM. TTT‑E2E — первая методика, показавшая реальные признаки жизни в этой задаче. Мы не наблюдаем предельных стен для её масштабирования — даже при обширных экспериментах. Это может стать важным шагом к решению проблемы «длинного контекста» уже в 2026 году.Нашу статью и код можно посмотреть в открытом доступе.Как память LLM отличается от человеческой?Люди отлично учатся из жизненного контекста: мы не помним все детали, но сохраняем обобщённую интуицию. Вы, возможно, не вспомните первое слово лектора на своей первой лекции по машинному обучению, но понимание, полученное тогда, помогает вам осмысливать этот пост.Трансформеры с механизмом внимания, напротив, стремятся к почти безошибочной точности запоминания. Полное внимание (full attention) хранит ключи и значения всех токенов, что требует всё больших ресурсов: обработка десятого миллиона токена занимает в миллион раз больше времени, чем десятого.Чтобы избежать чрезмерной нагрузки, современные архитектуры комбинируют полное внимание с аппроксимациями — скользящим окном (sliding window), Mamba, Gated DeltaNet. Они обеспечивают постоянную вычислительную стоимость на токен, но теряют эффективность на больших контекстах, поскольку упускают важную информацию, полезную для предсказаний.Наш метод: сжатие контекста в весаКак создать метод, обладающий постоянной стоимостью на токен и при этом сохраняющий важную предсказательную информацию длинного контекста?Ключевым механизмом является сжатие. Человеческий мозг сжимает огромный опыт, отбрасывая детали, но сохраняя суть.