Немецкая исследовательская группа предложила способ, при котором Transformer-модели сами выбирают, сколько раз повторять вычисления для решения задачи. В сочетании с дополнительной памятью такой подход заметно превосходит более крупные модели в математических тестах. Работу выполнили специалисты из Lamarr Institute, Fraunhofer IAIS и Боннского университета. Они изучали, можно ли устранить компромисс между looped transformers, которые экономят параметры за счёт повторного использования одного и того же вычислительного блока, и потерей ёмкости для хранения знаний. Обычные языковые модели могут решать задачи по шагам с помощью chain-of-thought prompting, но каждый промежуточный шаг требует дополнительных токенов. В looped transformers один и… Подробнее