Проблема длинного контекста остаётся одним из главных узких мест больших языковых моделей: чем больше текст, тем выше задержки и тем дороже вычисления. Теперь NVIDIA вместе с исследователями из Astera, Стэнфорда, UC Berkeley и UC San Diego предложила элегантное решение — TTT‑E2E, метод, который ускоряет работу с длинным контекстом без дополнительного кэша и сложной архитектуры. Ключевая идея TTT‑E2E — сжимать контекст прямо в веса модели. Вместо того чтобы хранить всё прочитанное во внешней памяти или в attention‑кэше, модель в процессе инференса продолжает учиться: она читает текст, делает предсказания и одновременно с помощью градиентного обновления «впитывает» важную информацию в свои параметры. Это и есть так называемое test‑time training — обучение во время тестирования. По результатам экспериментов, на контексте 128K токенов TTT‑E2E работает в 2,7 раза быстрее, чем классический Transformer с полным вниманием, а при 2 млн токенов ускорение достигает 35 раз — без потери качества.
NVIDIA научила модели «помнить без памяти»: как TTT E2E ускоряет длинный контекст в разы
15 января15 янв
2 мин