Исследователи из Боннского университета и института Lamarr представили архитектуру, которая решает главную проблему современных LLM: попытку решать сложные логические задачи и вспоминать факты одними и теми же механизмами. Теперь модель сама решает, сколько «времени на раздумья» ей нужно потратить на каждый слой, используя адаптивные циклы (adaptive looping). В обычном трансформере данные проходят через слои один раз. В новой архитектуре каждый блок может прокручивать вычисления внутри себя до 7 раз. Результаты впечатляют: модель с 12 слоями и циклами на 6.4% обошла стандартную 36-слойную модель в математических тестах, потребляя столько же ресурсов. В задачах на Precalculus (подготовка к анализу) прирост составил 31%, а в Intermediate Algebra — 26%. Но циклы не помогают помнить столицы стран или социальные нормы — для этого архитектуру снабдили внешними банками памяти (memory banks). Это добавило всего 10 млн параметров, но позволило закрыть пробелы в эрудиции, которые не лечатся «р
🔬 Разделяй и властвуй: новый Трансформер дает математике «время на раздумья», а фактам — память
ВчераВчера
1 мин