Найти тему
Blasty_View

Обучение во временно структурированных средах

Природные среды имеют временную структуру в различных временных масштабах. Это свойство отражается в биологическом обучении и памяти, но обычно не в системах машинного обучения. Мы продвигаем многомасштабный метод обучения, в котором каждый вес в нейронной сети разлагается как сумма весов с разной скоростью обучения и распада. Таким образом, знания распределяются по разным временным шкалам, что позволяет быстро адаптироваться к изменениям задач, избегая катастрофических помех. Во-первых, мы доказываем, что предыдущие модели, которые обучаются в нескольких временных масштабах, но со сложной связью между временными масштабами, эквивалентны многомасштабному обучению с помощью репараметризации, которая устраняет эту связь. Тот же анализ дает новую характеристику импульсного обучения как быстрого веса с отрицательной скоростью обучения. Во-вторых, мы выводим модель байесовского вывода по шуму 1 / f, обычному временному шаблону во многих областях онлайн-обучения, который включает автокорреляции на большие расстояния (степенной закон). Генеративная часть модели выражает 1 / f шум как сумму диффузионных процессов в разных временных масштабах, а логическая сторона отслеживает эти скрытые процессы с помощью фильтра Калмана. Затем мы выводим вариационное приближение к байесовской модели и показываем, как она является расширением многомасштабного обучения. Результатом является оптимизатор, который может использоваться в качестве встроенной замены в произвольной архитектуре нейронной сети. В-третьих, мы оцениваем способность этих методов справляться с нестационарностью, тестируя их в онлайн-задачах прогнозирования, характеризующихся 1 / f шумом в скрытых параметрах. Мы обнаружили, что байесовская модель значительно превосходит онлайновый стохастический градиентный спуск и две пакетные эвристики, которые преимущественно или исключительно опираются на более свежие данные. Более того, вариационная аппроксимация работает почти так же хорошо, как полная байесовская модель, и с требованиями к памяти, линейно зависящими от размера сети.