Найти в Дзене
Зелье опыта

Исследователи из Google Research предложили ATLAS — высокоёмкую память, оптимизируемую по текущим и прошлым токенам, что устраняет

Исследователи из Google Research предложили ATLAS — высокоёмкую память, оптимизируемую по текущим и прошлым токенам, что устраняет «онлайн-узкое горлышко» традиционных рекуррентных моделей. На её основе создано семейство DeepTransformers — строгие обобщения классического Transformer. ATLAS превосходит как трансформеры, так и современные линейные RNN на задачах language modelling, common-sense reasoning и длинных контекстов (до 10 М токенов в BABILong, +80 % accuracy поверх Titans). Работа открывает дорогу к моделям, которые «дозаписывают» знания в память по мере общения с пользователем. 🔗 arXiv 2505.23735 DOI: 10.48550/arXiv.2505.23735 🕒 2025-05-29 15:00 UTC expotion daily

Исследователи из Google Research предложили ATLAS — высокоёмкую память, оптимизируемую по текущим и прошлым токенам, что устраняет «онлайн-узкое горлышко» традиционных рекуррентных моделей. На её основе создано семейство DeepTransformers — строгие обобщения классического Transformer.

ATLAS превосходит как трансформеры, так и современные линейные RNN на задачах language modelling, common-sense reasoning и длинных контекстов (до 10 М токенов в BABILong, +80 % accuracy поверх Titans). Работа открывает дорогу к моделям, которые «дозаписывают» знания в память по мере общения с пользователем.

🔗 arXiv 2505.23735

DOI: 10.48550/arXiv.2505.23735

🕒 2025-05-29 15:00 UTC

expotion daily