В данной публикации детально описаны принципы работы нейросетевых моделей, а именно нейронная машина Тьюринга, дифференцируемый нейронный компьютер, а также его модификации. Перечислены сферы применимости этих моделей. Выделены преимущества этих моделей по сравнению с более ранней успешной моделью LSTM. Описаны недостатки этих моделей, а также способы их устранения. Дано теоретическое обоснование того факта, что выше рассмотренные нейронные сети с внешней памятью, обладают бо ́льшим потенциалом для решения многих задач, чем LSTM.
Проведены вычислительные эксперименты для задач копирования последовательностей битовых векторов, а также для задачи освоения базовых навыков вопросно-ответной системы. Результаты показывают, что нейронные сети с внешней памятью обладают большей «долгосрочной памятью», чем LSTM, имеют б ́ольшую обобщающую способность. В некоторых случаях они превосходят LSTM по скорости обучения.
Рекуррентные нейронные сети (RNN) отличаются от других методов машинного обучения тем, что они способны обрабатывать серии событий во времени или последовательные логические цепочки. Рекуррентные нейронные сети могут использовать свою внутреннюю память для обработки последовательностей разной длины. RNN применимы в таких задачах как, например: распознавание рукописного текста, анализ текстов, распознавание речи и др. Кроме того, известно, что RNN являются полными по Тьюрингу, и поэтому имеют возможность имитировать произвольные программные процедуры. Но на практике это не всегда просто сделать.
Рекуррентные нейронные сети хорошо справляются с задачами обучения на последовательностных данных и с задачами обучения с подкреплением, но очень ограничены в возможностях для решения задач, связанных с работой со структурами данных и переменными, а также хранением данных в течение длинных временных промежутков из-за отсутствия долгосрочной памяти.
Одним из способов улучшения стандартных рекуррентных сетей для успешного решения алгоритмических задач является введение адресной памяти большого размера. В отличие от машины Тьюринга, нейронная машина Тьюринга (NTM) является полностью дифференцируемой моделью, которая может быть обучена модификациями метода градиентного спуска (например, RMSProp), что дает практический механизм для обучения программ на примерах.
Основным фактором появления нейронных сетей с внешней памятью является изобретение дифференцируемых механизмов внимания.
Модель NTM была предложена в 2014-ом году.
В 2016-ом году была предложена усовершенствованная модель нейронной сети с внешней памятью под названием дифференцируемый нейронный компьютер.
В 2018-ом году были предложены четыре модификации для дифференцируемого нейронного компьютера, которые позволяли улучшить качество решения задач, связанных с вопросно-ответными системами (QA- tasks).
На сегодняшний день очень высока актуальность создания новых рекуррентных нейросетевых моделей, способных хранить большие объёмы данных, а также успешно решать задачи, предъявляемые к вопросно-ответным системам (QA-задачи).
К таким нейросетевым моделям предъявляются следующие требования:
- наличие «долгосрочной» обучаемой памяти;
- высокая скорость обучения;
- устойчивость процесса обучения (процесс обучения не должен существенно зависеть от начальной инициализации);
- прозрачность принятия решений моделью и интерпретируемость работы
- нейронной сети (попытка уйти от концепции «черного ящика»);
- способность решать QA-задачи;
- модель должна содержать относительно небольшое количество обучаемых параметров;
- способность работать с переменными, а также со структурами данных
- (например, с графами), решать алгоритмические задачи.
Введение внешней памяти сокращает значительную часть пространства поиска, поскольку теперь мы просто ищем RNN, которая может обрабатывать информацию, хранящуюся за её пределами. Это усечение пространства поиска позволяет нам начать использовать некоторые из возможностей RNN, которые были недоступны ранее, что видно из множества задач, которые может успешно решать нейронная машина Тьюринга: от копирования входных последовательностей после их просмотра, до эмуляции N-грамм, реализации вопросно-ответных систем, решения задачи обхода и ориентирования на графе, а также поиска кратчайшего пути в графе и решения задач, связанных с обучением с подкреплением.
Напоследок, в нашей обзорной статье приведем список названий некоторых нейронных сетей с внешней памятью:
- Графовая нейронная сеть (Graph Neural Network)
- Нейронная стек машина (Нейронный стек, Neural stack machine)
- Нейронная очередь (Neural queue)
- Нейронный дек (Neural deque)
- Сеть указателей (Pointer Network)
- Сквозная сеть памяти (End-to-end memory network)
- Сеть памяти (Memory network)
- Динамическая сеть памяти (Dynamic memory network)
- Нейронная карта (Neural map)
- Нейронная машина Тьюринга (Neural Turing Machine)
- Дифференцируемый нейронный компьютер (Differentiable Neural Computer)