это обучение уже во время тестирования — на предоставленном контексте?Так появляется Test-Time Training (TTT). Мы обнаружили, что этот подход становится особенно эффективным, если дополнить его мета-обучением на этапе инициализации модели. Так рождается TTT‑E2E:внутренний цикл напрямую оптимизирует потерю предсказания токена (в отличие от предыдущих подходов, таких как Titans),внешний цикл оптимизирует итоговую потерю после выполнения TTT.Какую роль сохранит RAG?TTT похож на «обновление мозга», а методы поиска с извлечением (RAG) — на ведение записной книжки. Блокнот полезен, когда важны детали, например при составлении длинного списка покупок. Но продуктивность человека определяется всё же самим мозгом, а не его блокнотом. Аналогично, эффективность ИИ‑агента главным образом зависит от того, насколько хорошо он сжимает контекст в предсказательные и интуитивные закономерности.ОграниченияЭтап мета‑обучения TTT‑E2E требует градиентов от градиентов, что делает обучение в 3,4 раза медленнее
Аналогично, обучение языковых моделей через предсказание следующего токена — это процесс сжатия данных в веса модели.А что если продолжить
14 января14 янв
2 мин