Это фреймворк для потокового пространственного интеллекта на основе визуальных данных с использованием test-time training (TTT). Spatial-TTT адаптирует «быстрые веса», чтобы захватывать и структурировать пространственную информацию из длинных видеопотоков. Это позволяет моделям со временем формировать структурированную 3D-пространственную память. Основные идеи: 🔹 Эффективная потоковая память Быстрые веса работают как компактная пространственная память. Рост памяти сублинейный даже на видео длиннее 7000 кадров, при этом вычисления сокращаются более чем на 40%. 🔹 Пространственно-предиктивный механизм Слои TTT с 3D пространственно-временной свёрткой улавливают геометрические соответствия и временную непрерывность. 🔹 SOTA-результаты Модель показывает лучшие результаты на задачах долгосрочного пространственного понимания видео (VSI-Bench). Работа заняла 1 место в рейтинге Daily Papers на Hugging Face 13 марта. Проект: https://liuff19.github.io/Spatial-TTT/ GitHub: https://github.co