Найти в Дзене
Зелье опыта

CRT соединяет «узкий» Transformer, работающий с короткими сегментами, и рекуррентную сеть, которая сжимает историю в единый вектор

CRT соединяет «узкий» Transformer, работающий с короткими сегментами, и рекуррентную сеть, которая сжимает историю в единый вектор persistent memory. Это резко снижает FLOPs и RAM при обработке длинных последовательностей, сохраняя (а иногда и улучшая) точность на WordPTB, WikiText-103 и видео-датасете Toyota Smarthome. Модель выдерживает сравнение с полноразмерными трансформерами, используя в 2–4 раза более короткие окна контекста; при этом GPU-затраты уменьшаются до уровней, приемлемых для edge-устройств. Авторы позиционируют CRT как путь к «длинноконтекстным» LLM на смартфонах и встраиваемых системах. 🔗 arXiv 2505.00929 DOI: 10.48550/arXiv.2505.00929 🕒 2025-05-02 15:00 UTC expotion daily

CRT соединяет «узкий» Transformer, работающий с короткими сегментами, и рекуррентную сеть, которая сжимает историю в единый вектор persistent memory. Это резко снижает FLOPs и RAM при обработке длинных последовательностей, сохраняя (а иногда и улучшая) точность на WordPTB, WikiText-103 и видео-датасете Toyota Smarthome.

Модель выдерживает сравнение с полноразмерными трансформерами, используя в 2–4 раза более короткие окна контекста; при этом GPU-затраты уменьшаются до уровней, приемлемых для edge-устройств. Авторы позиционируют CRT как путь к «длинноконтекстным» LLM на смартфонах и встраиваемых системах.

🔗 arXiv 2505.00929

DOI: 10.48550/arXiv.2505.00929

🕒 2025-05-02 15:00 UTC

expotion daily