CRT соединяет «узкий» Transformer, работающий с короткими сегментами, и рекуррентную сеть, которая сжимает историю в единый вектор persistent memory. Это резко снижает FLOPs и RAM при обработке длинных последовательностей, сохраняя (а иногда и улучшая) точность на WordPTB, WikiText-103 и видео-датасете Toyota Smarthome. Модель выдерживает сравнение с полноразмерными трансформерами, используя в 2–4 раза более короткие окна контекста; при этом GPU-затраты уменьшаются до уровней, приемлемых для edge-устройств. Авторы позиционируют CRT как путь к «длинноконтекстным» LLM на смартфонах и встраиваемых системах. 🔗 arXiv 2505.00929 DOI: 10.48550/arXiv.2505.00929 🕒 2025-05-02 15:00 UTC expotion daily
CRT соединяет «узкий» Transformer, работающий с короткими сегментами, и рекуррентную сеть, которая сжимает историю в единый вектор
9 августа 20259 авг 2025
~1 мин