Найти тему

Нейронные сети и не только

Глубокое обучение. Машинное обучение. Нейронные сети. Все модные словечки, которые вызывают в воображении видения границ науки, сливок технологии и – возможно, для некоторых – даже утопического (или антиутопического) будущего человечества. Эти слова также послужили идеальным ответом, когда мой отец, который платил тысячи долларов за мое образование, скептически спросил, какую работу может дать вам когнитивная наука. Несмотря на то, что большая часть публики не знает точного обозначения или хрестоматийного значения этих терминов, шумиха в средствах массовой информации заставляет их нести определенную коннотацию, которая вызывает эти эмоционально заряженные образы. Даже когда я впервые понял, что хочу изучать когнитивистику или информатику, я думал об этой области только в широких и заманчивых терминах; сочетание возможностей человеческого разума с огромной мощью технологий и вычислений. Итак, помимо ответов на загруженные вопросы о карьере семье и друзьям, для чего хороши нейронные сети?

Существует спорный вопрос о том, царапают ли исследователи поверхность эмуляции сознания и всенаправленного интеллекта, или вся концепция раздута из-за наваждения идеи нейронных сетей и глубокого обучения, подобной моей. Если последнее верно, то каково следующее великое расширение искусственного интеллекта и как далеко мы от реализации возможностей человеческого разума?

Нейронные сети: применение, история и как они работают

Вопрос о том, способны ли нейронные сети к экстраполяции и созданию, не умаляет того, каким преобразующим инструментом они являются, и насколько эффективна быстро развивающаяся область глубокого обучения. Нейронные сети могут моделировать невероятное количество математических и статистических задач, включая распознавание речи, классификацию лиц и изображений, обработку естественного языка и многие другие формы неструктурированных данных, некоторые из которых мы все еще открываем. Нейронные сети относятся к области искусственного интеллекта, но, более конкретно, к подмножеству машинного обучения – методу обучения алгоритмов на основе прошлого опыта. Впервые они были предложены в 1944 году Уорреном Маккалоу и Уолтером Питтсом как яркая и многообещающая идея, объединяющая нейробиологию и технологии, но первоначальная искра угасла, потому что им не хватало вычислительной мощности графических процессоров и чистых данных, которые мы имеем сегодня. Томазо Поджио, профессор мозга и когнитивных наук в Массачусетском технологическом институте, заметил: “Идеи в науке немного похожи на эпидемии вирусов”. Его метафора периодичности применима ко многим технологическим идеям, и нейронные сети не являются исключением. Идея поднималась и падала на протяжении второй половины двадцатого века, по-настоящему не преуспевая до своего последнего возрождения в последние 10-15 лет.

Нейронные сети смоделированы на основе человеческого мозга – с дополнительным акцентом на ‘свободно’. Узел или ‘нейрон’ - это вычислительная единица, которая имеет одно или несколько взвешенных значений и действует как миниатюрная функция. Затем узлы организуются в слой, образующий сеть. Сегодня они выросли из искусственной нейронной сети с одним слоем узлов до 100 слоев. Первый слой - это входной слой, а выходной слой - это результирующее преобразование, которое было распространено через средние ‘скрытые’ слои. Это то, что означает “глубокий” в “глубоком обучении” — глубина скрытых слоев сети.

Схема нейронной сети с 2 скрытыми слоями. Nielsen, Michael. “Нейронные сети и глубокое обучение”.
Схема нейронной сети с 2 скрытыми слоями. Nielsen, Michael. “Нейронные сети и глубокое обучение”.

Так что же это за "магия", которая происходит внутри этих скрытых слоев? Оказывается, магия больше похожа на математическое исчисление, чем на что-либо еще. Полная глубина преобразований, которые данные претерпевают при передаче в пределах этих слоев, представляет собой сложную, но красивую компоновку миллионов или даже миллиардов чисел в форме матриц и векторов, распространяющихся по узлам. Достижение успешных результатов с помощью этого процесса также не является волшебством и требует огромного количества исходных данных для обучения. Модель требует огромного количества вычислений, проб и ошибок для точной настройки каждого шага процесса.

Недостатки нейронных сетей

Глубокое обучение очень эффективно анализирует большие объемы неструктурированных данных и извлекает представления без необходимости явного программирования конкретных функций. Тем не менее, его универсальность обходится дорого. Процесс обучения отнимает много времени и энергии и, следовательно, является дорогостоящим как в денежном, так и в экологическом плане. Кроме того, глубокое обучение работает только в том случае, если вводятся данные правильного типа — справедливо утверждение “если вы добавите мусор, вы получите мусор”. Эффективность машины сильно зависит от качества данных; если в источнике данных есть искажения, машина проявит эти искажения. Согласно новому исследованию Технологического института Джорджии, беспилотные автомобили могут лучше распознавать пешеходов со светлой кожей, поскольку модели в основном обучались на примерах светлокожих пешеходов. Человеческая предвзятость просочилась в распознавание изображений и многие другие автоматизированные системы принятия решений, в которые мы верим.

По мере того как общество продолжает совершенствоваться в управлении данными, обучение глубокому обучению может стать более упорядоченным. Однако глубокое обучение сдерживается его недостаточной интерпретируемостью в скрытых слоях. Нейронные сети могут служить в качестве автоматизированных систем оценки эссе (AES), которые могут оценивать с высокой точностью и справедливостью по сравнению с человеческими оценщиками. Но с интеллектуальной точки зрения в нейронных сетях есть что-то неудовлетворительное. Достаточное обучение может изменить настройки сети до тех пор, пока она не сможет эффективно классифицировать данные, но что на самом деле означают эти настройки? Человеческое принятие решений далеко от совершенства с точки зрения логики, но, по крайней мере, мы можем рационализировать и объяснить наши мыслительные процессы. Несмотря на незнание работы человеческого разума, у всех нас он есть (предположительно), и поэтому мы испытываем значительное сочувствие и понимание друг друга. Рассмотрение весов отдельных соединений не удовлетворит этому пониманию, и когда дело доходит до реальных применений приложений, таких как здравоохранение и медицинские операции, люди, как правило, хотят этой ясности. Конструкция черного ящика требует доверия к лежащей в основе причинно-следственной связи, доверия, которое, вероятно, ограничит применение нейронных сетей, когда на карту поставлены жизни людей и другие реальные последствия.

Наконец, как бы захватывающе ни звучали нейронные сети, они далеки от общего интеллекта, за которым гонится ИИ. Информация, которую модель получает в результате обучения, не может сравниться со здравым смыслом, который люди развивают благодаря жизненному опыту. Нейронные сети могут намного превзойти людей в одной конкретной области: человек может потратить всю свою жизнь на освоение аркадной игры, и алгоритм глубокого обучения с легкостью может украсть этот драгоценный высокий балл. Но даже при малейшем изменении концепции игры нейронная сеть может вернуться на круги своя, в то время как человек успешно адаптируется. Как мы могли бы предоставить им такую гибкость?

Дающий жизнь нейронным сетям

“Супервизия - это опиум для исследователей ИИ”, - сказал один профессор на прошлой неделе, имея в виду технику обучения без присмотра, или позволяя модели находить свои собственные шаблоны и информацию. В этом прелесть изучения передовой области: как только мы протестировали концепцию, нам предложили двигаться дальше. Многие источники сходятся во мнении, что искусственный общий интеллект, в отличие от статических статистических моделей, должен быть способен “оживать” и делать прогнозы в динамичном мире с постоянно меняющимися сенсорными данными. Что может быть лучше для представления этих примеров — нейроморфных вычислений, искусственного интеллекта с биологическими ограничениями и обучения с подкреплением, чем параллели между информатикой и мозгом?

1) Нейроморфные вычисления

Одной из восходящих “рок-звезд” являются нейроморфные вычисления. В некоторых последних конструкциях чипов кремниевые нейроны получают и отправляют импульсы, как настоящие нейроны. Существует даже пластичность, усиливающая часто воспламеняемые соединения по сравнению с теми, которые этого не делают. Впечатляюще, что чип Intel Loihi-2 может использовать длину интервалов между всплесками для представления большего количества информации, что является еще одним свойством нашего мозга.

(Автор: Уолден Кирш / корпорация Intel)
(Автор: Уолден Кирш / корпорация Intel)

Чип тоже дремлет. Под воздействием шума, который наш мозг производит во сне, ранее нестабильная сеть смогла “перезарядиться” и лучше справляться с задачами классификации. Конечно, он очень быстр по сравнению с другими чипами, такими как графические процессоры, поскольку его взаимосвязанность сокращает доступ к памяти и повышает эффективность. “Понюхав” только один образец химических веществ из 10, прошедших через аэродинамические трубы, чип смог идентифицировать его, по сравнению с тысячами, необходимыми для глубокого обучения! Неудивительно, что наибольшее непосредственное применение этот чип находит для мобильных роботов, которым необходимо “потреблять минимум энергии” для навигации и изучения мира.

2) Биологически ограниченный ИИ (модель HTM)

Хотя чипы подключаются физически, мы также можем встроить реальные нейроны в нейробиологию сетей, наиболее известную идею которой отстаивают компания Numenta и ее основатель Джефф Хокинс, который также основал Центр теоретической нейронауки Редвуда, входящий в состав Института нейронаук Хелен Уиллс в Беркли. Их модель иерархической временной памяти (HTM) конкурирует по производительности с ведущими моделями глубокого обучения, будучи при этом гораздо более ориентированной на мозг. Их модель нейрона состоит из дендритов, аксонов, синапсов и дендритной обработки.

Вместо того, чтобы достигать пластичности за счет частоты срабатывания, как в чипе, HTM делает это за счет прогнозирования. Нейрон не просто передает потенциалы действия, но готовится после сигнала и срабатывает только тогда, когда другие нейроны в прогнозирующем состоянии заблокированы. Пути, которые согласуются с предсказаниями, укрепляются.

В рамках этой структуры наш мозг обладает способностью кодировать данные в однородный материал, который называется “разреженными распределенными представлениями” (SDR). В SDR соседние позиции битов представляют аналогичные свойства. Если мы немного перевернем, то описание изменится, но не радикально. Это отличается от современных кодеров, потому что каждый бит на самом деле интерпретируемый:

-4

Несмотря на то, что эта модель не изготовлена из кремния, ее физичность обусловлена четким представлением движения. Подобно мозгу животного, эти сети имеют ячейки сетки, которые отображают перемещения в местоположения в системах отсчета. Они имитируют работу нашей сенсомоторной системы: получают сигнал местоположения, сопоставляют его с характеристиками объекта и создают представления объекта, что позволяет лучше прогнозировать. Таким образом, кортикальные колонки знают не только то, на что они смотрят, но и то, куда они смотрят относительно объекта. В результате получается воплощенный разум, который активно использует сенсоры для построения прогнозирующих моделей мира.

3) Обучение с подкреплением

Наконец, мы возвращаемся к программному обеспечению мозга с областью искусственного интеллекта, которая все больше влияет на то, как мы рассматриваем познание: обучение с подкреплением. Это чрезвычайно мощно в сочетании с глубоким обучением и имеет широкое применение во всем: от автономного вождения до финансов и робототехники, а также для понимания того, как животные, включая людей, принимают решения. Подобно ребенку, новичку в мире, агент обучения с подкреплением не знает, какие состояния являются хорошими или что подразумевают его действия. Конечно, в некоторых контекстах у него есть предвзятое представление о том, с каким опытом он, скорее всего, столкнется, но это не распространено. И вместо того, чтобы просто обдумывать, что он будет делать, ему нужно учиться на практике и решать, какие действия предпринимать на каждом временном шаге, исходя из вознаграждения и наблюдаемой обстановки.

Одним из вариантов является пассивное обучение, когда агент следует единой “политике” или плану действий и обнаруживает значения последующих состояний, чтобы увидеть, насколько это хорошо. С точки зрения практичности это был бы довольно плохой способ прожить жизнь, поэтому вместо этого он исследует через активное обучение. Как только он в конечном итоге выходит на правильную траекторию и находит оптимальный план действий, то, как выбираются действия и качество решений, в конечном счете, не имеет значения.

Наконец, как и ожидалось от мощного интеллекта, вы можете сделать процесс обучения оптимальным. Ключевым моментом является минимизация сожалений, что позволяет агенту более методично исследовать, чтобы использовать лучшие награды в лучшее время. (Если вы хотите знать, как вы можете использовать силу этих сложных методов, чтобы стать лучшим агентом в своей собственной жизни, я настоятельно рекомендую "Алгоритмы для жизни" Брайана Кристиана и Томаса Л. Гриффитса.)

Дорога к общему интеллекту полна жизни. Обучение с подкреплением обобщается за счет улучшения адаптации к невидимой среде, чип обобщается за счет постоянной перестройки кремниевых схем, а модель HTM обобщается на общий кортикальный алгоритм на уровнях чувств и абстракции. Взгляните на этот ослепительный танец между машиной и биологией, потому что именно так нейронные сети могли бы выразить чистую радость от того, что они живы.