11,9 тыс подписчиков

Теперь нейронные сети ничего не забывают и постоянно учатся

7 июня 20197 июн 2019

619

6 мин

Оглавление

Проблемы забвения, стабильности и гибкости
Компромисс между передачей и выводом
Meta-Experience Replay

Нейронные сети часто забывают устаревшую информацию, когда получают много новой. Создать нейронные сети, которые не теряют накопленные данные — ключевая задача текущего поколения глубокого обучения. Недавно исследователи из IBM опубликовали статью, которая предлагает непрерывное обучение, позволяющее реализовать нейронные сети, создающие инкрементные знания.

Нейронные сети достигли впечатляющих результатов в последние несколько лет. Однако архитектуры нейронных сетей по-прежнему ограничены из-за своей специфики и не могут использоваться в новых областях. Более того, нынешние нейронные сети эффективны только при обучении на больших стационарных распределениях данных. Но они испытывают проблемы при обучении на нестационарных распределениях данных.

Нейронные сети эффективно решают задачи тогда, когда в них единожды загружаются огромные объёмы данных, но им достаточно сложно обучаться постепенно. На протяжении всей истории существования ИИ-технологий сформировалось несколько теорий и предполагаемых моделей, которые могли решить проблему непрерывного обучения.

Проблемы забвения, стабильности и гибкости

Нейронные сети не могут получать новые знания постепенно в течение большого периода времени. Для этой проблемы был придуман собственный тезис, который получил название «катастрофическое забвение». Изначально термин сформулировали Майкл Макколски и Нил Коэн. Он был опубликован в газете 1989 года выпуска. Тезис описывает феномен, при котором нейронные сети стремятся быстро избавиться от предыдущих знаний для того, чтобы улучшить восприятие новых. Такая проблема часто наблюдается тогда, когда сеть пытается обучиться нескольким задачам последовательно. В таком случае сеть изменяет параметры задач A и делает так, чтобы они подходили для выполнения задач B.

Макклоски и Коэн использовали при обучении стандартной нейронной сети обратного распространения обучающий набор, который состоит из 17 однозначных задач (с 1 + 1 до 9 + 1 и от 1 + 2 до 1 + 9). Обучали сеть до тех пор, пока она не получила верное представление о задачах. Ошибки с течением обучения уменьшались. Затем было решено обучить сеть другому набору (от 2 + 1 до 2 + 9 и от 1 + 2 до 9 + 2) до тех пор, пока сеть не достигла такого же результата, как и в прошлый раз. Специалисты отметили, что эта процедура напоминала обучение ребёнка. После обучения проводились испытания представления о первом и втором наборе данных. Макклоски и Коэн отметили, что сеть не могла должным образом решать задачи со сложением с единицей после изучения задач с двойками (прим. АИИ — просто она была недостаточно глубока и недостаточно широка, что понятно для тех времён; однако это не снижает актуальность задачи).

Феномен «катастрофического забвения» является частью другой проблемы, связанной с обучением нейронных сетей — «дилемма стабильности и гибкости». Слишком большая гибкость приведёт к чрезмерной забывчивости сети, а увеличенная стабильность станет препятствием к эффективному кодированию полученных данных на уровне связей между нейронами. Иначе говоря, инкрементальное обучение в нейронных сетях нуждается в правильном балансе между забывчивостью и стабильностью. Сокращение забвения может улучшить стабильность сети, но при этом жертвуется гибкость.

В своём исследовании команда IBM решила проблему непрерывного обучения в нейронных сетях, представив новый вариант катастрофического забвения и дилеммы стабильности/гибкости.

Компромисс между передачей и выводом

IBM создали альтернативу дилеммам, которые мы изложили в предыдущем разделе. С некоторых точек зрения дилемма стабильности и гибкости связана с тем, что новые данные разрушают старые. Точнее говоря, компромисс передачи и вывода проявляется в принятии решения о степени, в которой различные примеры следует изучать с выдачей им одинакового веса. Если два примера изучаются с использованием разных весов, потенциал как для помех, так и для компромисса слишком низок. Это оптимальное решение, если два примера не связаны между собой, но в то же время субоптимально, если два примера имеют связь. Это исключает возможность для передачи обучения. И напротив, если два примера изучаются с использованием одинаковых весов, то существует высокий потенциал передачи и помех. Так может быть, когда примеры связаны и это оптимально, но если они не связаны — то это приведёт к серьёзным помехам.

Симметричное представление знаний — компромисс между передачей и выводом, который имеет значение для решения проблемы непрерывного обучения. Если нейронная сеть разделяет вес между примерами на основе взаимодействий между градиентами примеров, которым она была обучена, то непрерывное обучение в будущем будет значительно упрощено. Это произойдёт в той степени, в которой модель узнает о распределении веса. Эта точка зрения также отражает проблему непрерывного обучения, как мета-обучение. Главная задача состоит в том, чтобы внести правки в обучение модели, повлиять на динамику передачи и помех. Таким образом, непрерывное обучение на нестационарных данных будет происходить легче.

Специалистами IBM был создан новый метод непрерывного обучения, который объединяет две самые популярные области исследования в сфере глубокого обучения.

Meta-Experience Replay

MER — это новая структура, которая сочетает в себе мета-обучение и воспроизведение опыта для достижения непрерывного обучения. Первая итерация MER основывается на модели мета-обучения, которую создали в OpenAI. Называется она Reptile.

Концептуально мета-обучение — это область глубокого обучения, которая фокусируется на процессах, обучающих обучению. Алгоритм мета-обучения обычно принимает распределение задач, где каждая задача является проблемой обучения, и в этот момент создаётся быстрый ученик, который делает обобщение из небольшого количества примеров.

MER — это сочетание мета-обучения и популярных методов воспроизведения опыта, которые являются золотым стандартом для обработки нестационарных данных в системах глубокого обучения. Главная особенность воспроизведения опыта — сохранение в памяти прошлого обучения, чередующееся с текущим обучением. Так достигается стабильное постоянное обучение.

На высоком уровне комбинация мета-обучения и воспроизведения опыта даёт уникальную возможность для решения проблемы непрерывного обучения, основанной на компромиссе между передачей и выводом. Цель части мета-обучения будет состоять в том, чтобы создать такой метод, который максимизирует передачу и минимизирует логический вывод. Эта часть воспроизведения опыта помогает сбалансировать обучение как на ранее рассмотренных нейронной сетью примерах, так и на новых.

Команда IBM проверила MER на разных нестационарных наборах данных, включая игры, такие как Flappy Bird. В случае с последней, MER был обучен навигации по каналам. Также MER создавал узкие каналы, через которые птица должна была проходить по ходу игры. В такой среде довольно сложно добиться обучения с подкреплением, что наглядно показывает действенность метода. MER превосходит привычные многим стандартные модели нейронных сетей. Это чётко продемонстрировано на изображении ниже:

IBM представляют непрерывное обучение как компромисс между передачей и выводом. Этот метод сочетает мета-обучение и воспроизведение опыта, которые обеспечивают уникальный опыт для общих задач непрерывного обучения. IBM выложила алгоритм MER на GitHub.

Источник: towardsdatascience