В первые дни ИИ существовала конкуренция между двумя подходами: символическим ИИ и ИНН. В символическом "старом добром AI" подходе, программист обязан явно запрограммировать алгоритм, по которому работает система. В ИИ, напротив, система "учится" на данных. Символическое ИИ можно рассматривать как подход психолога - оно черпает вдохновение в когнитивной обработке человека, не пытаясь вскрыть черный ящик - где ИНН, использующие нейроноподобные элементы, черпают вдохновение в неврологии. Символическое ИИ было доминирующим подходом с 1960-х по 1980-е годы, но с тех пор оно было затенено подходами ИНС, вдохновленными неврологией.
Современные ИИ очень похожи на своих предков три десятилетия назад11. Большую часть прогресса можно отнести к увеличению необработанной компьютерной мощи: просто из-за закона Мура компьютеры сегодня на несколько порядков быстрее, чем было поколение назад, а применение графических процессоров (GPU) к ИНН ускорило их еще больше. Наличие больших наборов данных является вторым фактором: Сбор массивных маркированных наборов изображений, используемых для обучения, был бы очень сложным еще до эпохи Google. Наконец, третья причина, по которой современные ИНН более полезны, чем их предшественники, заключается в том, что они требуют еще меньше человеческого вмешательства. Современные ИНН - в частности, "глубокие сети" - извлекают соответствующие низкоуровневые представления (такие, как визуальные особенности) из данных, вместо того, чтобы полагаться на ручную проводку, чтобы явно запрограммировать их.
Детали
В исследованиях ИНС термин "обучение" имеет техническое применение, которое отличается от его использования в нейронауке и психологии. В ИНС обучение относится к процессу извлечения структурно-статистических закономерностей - из входных данных и кодирования этой структуры в параметры сети. Эти параметры сети содержат всю информацию, необходимую для определения сети. Например, полностью соединенная сеть с N нейронами может иметь один параметр (например, порог), связанный с каждым нейроном, и дополнительные N2 параметры, определяющие синаптические связи, в общей сложности для N+N2 свободных параметров. Конечно, по мере того, как количество нейронов N становится большим, в общем количестве параметров в полностью связанном ИНН доминируют синаптические параметры N2.
Три парадигмы
Существует три классических парадигмы извлечения структуры из данных и кодирования этой структуры в сетевые параметры (т.е. веса и пороги). В контролируемом обучении данные состоят из пар - входного элемента (например, изображения) и его метки (например, слова "жираф") - и цель состоит в том, чтобы найти сетевые параметры, которые генерируют правильную метку для новых пар. При неконтролируемом обучении данные не имеют меток; цель состоит в том, чтобы обнаружить статистические закономерности в данных без четких указаний на то, какие именно закономерности следует искать. Например, можно представить себе, что при наличии достаточного количества примеров жирафов и слонов в конечном итоге можно сделать вывод о существовании двух классов животных без необходимости их явного обозначения. И, наконец, при обучении в качестве подкрепления, данные используются для управления действиями, и успех этих действий оценивается по сигналу "награды".
Значительный прогресс в ИНС был достигнут в разработке более совершенных инструментов для обучения под надзором. Центральным соображением в обучении под надзором является "обобщение". С увеличением количества параметров увеличивается и "выразительная мощь" сети - сложность сопоставления входов и выходов, с которой может справиться сеть. Сеть с достаточным количеством свободных параметров может вписываться в любую функцию, но объем данных, необходимый для обучения сети без перегрузки, как правило, также масштабируется по количеству параметров. Если в сети слишком много свободных параметров, сеть рискует "переподогнать" данные, т.е. она будет генерировать правильные ответы на обучающий набор помеченных примеров, но не сможет обобщить их на новые примеры. В исследованиях ИНС такое противоречие между гибкостью сети (которая масштабируется по количеству нейронов и соединений) и количеством данных, необходимых для обучения сети (большее количество нейронов и соединений, как правило, требует больше данных), называется "компромиссом смещения-изменения". Сеть с большей гибкостью является более мощной, но без достаточных данных для обучения прогнозы, сделанные сетью на новых тестовых примерах, могут быть дико неправильными - хуже, чем прогнозы более простой, менее мощной сети. С большой силой приходит большая ответственность (за получение достаточного количества помеченных тренировочных данных). Компромисс между ошибками и отклонениями объясняет, почему большие сети требуют больших объемов помеченных данных обучения.
Продолжение следует...