Найти в Дзене

коллеги прислали статью с новым подходом к снаряду рекуррентности в контексте архитектуры Transformer; первым на моей памяти таким подходом был Transformer-XL, где применяли принцип Back Propagation Through Time из RNN, т.е. делили последовательность на куски и между кусками перебрасывали состояние (за подробностями отсылаю к самой статье); еще это отчасти напоминает статью Adaptive Computation Time; эта статья вообще из "дотрансформерной" эры, но ее идеи сейчас активно используются в рассуждающих моделях типа той же DeepSeek-R1; там идея заключается в том, что RNN может "решить", как долго ей "думать" над поступившим входом


а про статью я решил упомянуть потому, что мне понравилась использованная музыкальная терминология - прелюдия и кода, сама по себе идея еще не известно, как раскроется
коллеги прислали статью с новым подходом к снаряду рекуррентности в контексте архитектуры Transformer; первым на моей памяти таким подходом был Transformer-XL, где применяли принцип Back Propagation
Около минуты