Найти в Дзене
Николай Григорьев

Аналогично, обучение языковых моделей через предсказание следующего токена — это процесс сжатия данных в веса модели.А что если продолжить

это обучение уже во время тестирования — на предоставленном контексте?Так появляется Test-Time Training (TTT). Мы обнаружили, что этот подход становится особенно эффективным, если дополнить его мета-обучением на этапе инициализации модели. Так рождается TTT‑E2E:внутренний цикл напрямую оптимизирует потерю предсказания токена (в отличие от предыдущих подходов, таких как Titans),внешний цикл оптимизирует итоговую потерю после выполнения TTT.Какую роль сохранит RAG?TTT похож на «обновление мозга», а методы поиска с извлечением (RAG) — на ведение записной книжки. Блокнот полезен, когда важны детали, например при составлении длинного списка покупок. Но продуктивность человека определяется всё же самим мозгом, а не его блокнотом. Аналогично, эффективность ИИ‑агента главным образом зависит от того, насколько хорошо он сжимает контекст в предсказательные и интуитивные закономерности.ОграниченияЭтап мета‑обучения TTT‑E2E требует градиентов от градиентов, что делает обучение в 3,4 раза медленнее

Аналогично, обучение языковых моделей через предсказание следующего токена — это процесс сжатия данных в веса модели.А что если продолжить это обучение уже во время тестирования — на предоставленном контексте?Так появляется Test-Time Training (TTT). Мы обнаружили, что этот подход становится особенно эффективным, если дополнить его мета-обучением на этапе инициализации модели. Так рождается TTT‑E2E:внутренний цикл напрямую оптимизирует потерю предсказания токена (в отличие от предыдущих подходов, таких как Titans),внешний цикл оптимизирует итоговую потерю после выполнения TTT.Какую роль сохранит RAG?TTT похож на «обновление мозга», а методы поиска с извлечением (RAG) — на ведение записной книжки. Блокнот полезен, когда важны детали, например при составлении длинного списка покупок. Но продуктивность человека определяется всё же самим мозгом, а не его блокнотом. Аналогично, эффективность ИИ‑агента главным образом зависит от того, насколько хорошо он сжимает контекст в предсказательные и интуитивные закономерности.ОграниченияЭтап мета‑обучения TTT‑E2E требует градиентов от градиентов, что делает обучение в 3,4 раза медленнее обычного pre‑training на коротком контексте (8K). Это связано с тем, что стандартный API FlashAttention не поддерживает такие операции. Возможные решения:разработать собственный ядро внимания, поддерживающее «вторые градиенты»;или инициализировать TTT‑E2E из стандартного трансформера, обученного без TTT.Мы приглашаем исследовательское сообщество присоединяться к этим работам.ЗаключениеПодробности метода, результаты и реализацию можно изучить в нашей статье

End‑to‑End Test‑Time Training for Long Context.

Все эксперименты воспроизводимы, а код и наборы данных опубликованы в открытом репозитории.+26

НравитсяТеги: Agentic AI / Generative AI | Инструменты и методы разработки | Общее | Средний уровень технической сложности | Глубокий разбор | LLM | NVIDIA ResearchОб авторахЮ Сун — исследователь NVIDIA и постдок Стэндфордского университета. Специализируется на непрерывном обучении и концепции test‑time training, где каждая тестовая задача становится самостоятельной задачей обучения.Ейджин Чой — ведущий учёный направления «Язык и когниция» в NVIDIA. Её исследования сосредоточены на больших языковых и рассуждающих моделях, а также альтернативных архитектурах.

Лауреат стипендии Макартура (2022), в списке Time 100 Most Influential People in AI (2023), обладатель «Наград времени» ACL 2021 и CVPR 2021, а также восьми лучших докладов на ACL, EMNLP, NAACL, ICML, NeurIPS и AAAI.

В настоящее время — генеральный сопредседатель первой конференции Conference on Language Modeling (CoLM).Комментарии: обсуждение открыто на forums.developer.nvidia.comПохожие публикации:Масштабирование до миллионов токенов с эффективным обучением длинного контекста LLMHymba Hybrid‑Head Architecture повышает производительность малых языковых моделейКак сократить и дистиллировать Llama‑3.1 8B до NVIDIA Llama‑3.1‑Minitron 4BNVIDIA NeMo ускоряет инновации LLM с поддержкой гибридных моделей пространственного состоянияПодпишитесь на новости NVIDIA

Следите за NVIDIA DeveloperПолитика конфиденциальности | Выбор пользователя | Условия использования | Доступность | Корпоративные политики | Контакты© 2026 NVIDIA CorporationХотите, чтобы я адаптировал этот перевод в стиль научно‑популярной статьи для вашего Telegram‑блога (например, с более плавным повествованием и пояснениями для русскоязычной аудитории читателей)?