🔬 Разделяй и властвуй: новый Трансформер дает математике «время на раздумья», а фактам — память

ВчераВчера

1 мин

Исследователи из Боннского университета и института Lamarr представили архитектуру, которая решает главную проблему современных LLM: попытку решать сложные логические задачи и вспоминать факты одними и теми же механизмами. Теперь модель сама решает, сколько «времени на раздумья» ей нужно потратить на каждый слой, используя адаптивные циклы (adaptive looping). В обычном трансформере данные проходят через слои один раз. В новой архитектуре каждый блок может прокручивать вычисления внутри себя до 7 раз. Результаты впечатляют: модель с 12 слоями и циклами на 6.4% обошла стандартную 36-слойную модель в математических тестах, потребляя столько же ресурсов. В задачах на Precalculus (подготовка к анализу) прирост составил 31%, а в Intermediate Algebra — 26%. Но циклы не помогают помнить столицы стран или социальные нормы — для этого архитектуру снабдили внешними банками памяти (memory banks). Это добавило всего 10 млн параметров, но позволило закрыть пробелы в эрудиции, которые не лечатся «р

В обычном трансформере данные проходят через слои один раз. В новой архитектуре каждый блок может прокручивать вычисления внутри себя до 7 раз. Результаты впечатляют: модель с 12 слоями и циклами на 6.4% обошла стандартную 36-слойную модель в математических тестах, потребляя столько же ресурсов. В задачах на Precalculus (подготовка к анализу) прирост составил 31%, а в Intermediate Algebra — 26%.

Но циклы не помогают помнить столицы стран или социальные нормы — для этого архитектуру снабдили внешними банками памяти (memory banks). Это добавило всего 10 млн параметров, но позволило закрыть пробелы в эрудиции, которые не лечатся «раздумьями».

Интересно, что модель сама распределяет нагрузку: ранние слои почти не используют циклы и память, работая быстро, тогда как поздние слои «задумываются» всерьез и активно лезут в базу знаний. Это прямой путь к созданию компактных моделей, которые не уступают гигантам в логике, просто работая над задачей чуть дольше.

#AI #Research #Transformer #Architecture #Math #DeepLearning

🔗 Math needs thinking time, everyday knowledge needs memory, and a new Transformer architecture aims to deliver both