Согласно результатам опроса в сторис тема с искусственным интеллектом (ИИ) и как работает мозг человека, оказалась интересна не только мне. Корректное функционирование нашего мозга непосредственно связано с психосоматикой, нашим психологическим и физическим здоровьем.
Алгоритм, который учится через награды, может показать, как работает наш мозг.
Оптимизируя алгоритмы подкрепляющего обучения, DeepMind открыл новые подробности о том, как дофамин помогает мозгу учиться.
(DeepMind, — британская компания, занимающаяся искусственным интеллектом, создала нейронную сеть способную научиться играть и побеждать в видеоигры человека.)
⠀
В 1951 году Марвин Мински, тогда студент Гарварда, позаимствовал наблюдения из поведения животных, чтобы попытаться создать интеллектуальную машину. Опираясь на психологическую работу физиолога Ивана Павлова, который широко использовал собак, чтобы показать, как животные учатся через наказания и награды, Мински создал компьютер, который мог непрерывно учиться через подобное подкрепление, чтобы решить виртуальный лабиринт.
⠀
В то время нейробиологам еще предстояло выяснить механизмы, которые позволяют животным учиться таким образом. Но Мински все еще был способен свободно имитировать поведение, тем самым развивая искусственный интеллект. Несколько десятилетий спустя, по мере того как обучение подкреплению продолжало развиваться, оно, в свою очередь, помогло нейробиологии открыть эти механизмы, питая благотворный цикл продвижения между этими двумя областями.
⠀
В статье, опубликованной в журнале Nature today, DeepMind, дочерняя компания Alphabet по ИИ, в очередной раз использовала уроки подкрепляющего обучения, чтобы предложить новую теорию о механизмах вознаграждения в нашем мозге. Эта гипотеза, подкрепленная первоначальными экспериментальными данными, могла не только улучшить наше понимание психического здоровья и мотивации. Это также могло бы подтвердить текущее направление исследований ИИ в направлении создания более человекоподобного общего интеллекта.
⠀
На высоком уровне обучение подкреплению следует за пониманием, полученным от собак Павлова: можно научить агента осваивать сложные, новые задачи только с помощью положительной и отрицательной обратной связи. Алгоритм начинает изучение поставленной задачи, случайным образом предсказывая, какое действие может принести ему награду. Затем он совершает действие, наблюдает за реальной наградой и корректирует свое предсказание, основываясь на допустимой погрешности. В течение миллионов или даже миллиардов испытаний ошибки прогноза алгоритма сходятся к нулю, и в этот момент он точно знает, какие действия предпринять, чтобы максимизировать свою награду и таким образом завершить свою задачу.
⠀
Оказывается, система вознаграждения мозга работает примерно так же - открытие, сделанное в 1990-х годах, вдохновленное алгоритмами обучения подкреплению. Когда человек или животное собирается совершить какое-то действие, его дофаминовые нейроны делают предсказание об ожидаемой награде. Как только фактическая награда получена, они затем запускают количество дофамина, которое соответствует ошибке предсказания. Лучшая награда, чем ожидалось, вызывает сильное высвобождение дофамина, в то время как худшая награда, чем ожидалось, подавляет производство химического вещества. Другими словами, дофамин служит корректирующим сигналом, заставляющим нейроны корректировать свои предсказания до тех пор, пока они не приблизятся к реальности. Это явление, известное как ошибка предсказания вознаграждения, работает во многом как алгоритм обучения подкреплению.
⠀
Новая статья DeepMind основана на тесной связи между этими естественными и искусственными механизмами обучения. В 2017 году его исследователи представили усовершенствованный алгоритм обучения подкреплению, который с тех пор открывает все более впечатляющую производительность при выполнении различных задач. Теперь они верят, что этот новый метод может дать еще более точное объяснение работы дофаминовых нейронов в мозге.
⠀
В частности, усовершенствованный алгоритм изменяет способ предсказания вознаграждений. В то время как старый подход оценивал вознаграждение как единичное число, равное среднему ожидаемому результату, новый подход представляет его более точно в виде распределения. (Представьте на мгновение игровой автомат: Вы можете выиграть или проиграть после некоторых действий, но ни в одном случае Вы никогда не получите средний ожидаемый результат.)
⠀
Эта модификация позволяет выдвинуть новую гипотезу: предсказывают ли дофаминовые нейроны вознаграждение тем же распределительным способом?
⠀
Чтобы проверить эту теорию, DeepMind совместно с группой ученых из Гарварда наблюдали поведение дофаминовых нейронов у мышей. Они ставили мышам задачу и вознаграждали их, основываясь на броске костей, измеряя паттерны возбуждения их дофаминовых нейронов по всему телу. Они обнаружили, что каждый нейрон выделяет разное количество дофамина, что означает, что все они предсказывали разные результаты. В то время как некоторые были слишком «оптимистичны», предсказывая более высокие награды, чем на самом деле получили, другие были более «пессимистичны», низко оценивая реальность. Когда исследователи наметили распределение этих предсказаний, они внимательно следили за распределением реальных вознаграждений. Эти данные убедительно доказывают, что мозг действительно использует предсказания распределения вознаграждения для усиления своего алгоритма обучения.
⠀
«Это хорошее расширение понятия дофаминового кодирования ошибки предсказания вознаграждения» - написал Вольфрам Шульц, пионер в поведении дофаминовых нейронов, который не участвовал в исследовании, в электронном письме. «Удивительно, как эта очень простая реакция дофамина предсказуемо следует интуитивным паттернам основных биологических процессов обучения, которые теперь становятся компонентом ИИ».
⠀
Это исследование имеет значение, как для ИИ, так и для нейробиологии. Во-первых, он подтверждает, что обучение распределенному подкреплению является перспективным путем к более продвинутым возможностям ИИ. «Если мозг использует его, это, вероятно, хорошая идея» - сказал Мэтт Ботвиник, директор DeepMind по нейробиологическим исследованиям и один из ведущих авторов статьи на эту тему, во время брифинга для прессы. «Это говорит нам, что это вычислительная техника, которая может масштабироваться в реальных ситуациях. Это будет хорошо сочетаться с другими вычислительными процессами».
⠀
Во-вторых, это может стать важным дополнением к одной из канонических теорий нейробиологии о системах вознаграждения в мозге, что, в свою очередь, может улучшить наше понимание всего - от мотивации до психического здоровья. Что может означать, например, наличие «пессимистичных» и «оптимистичных» дофаминовых нейронов?
Если мозг избирательно слушает только одно или другое, может ли это привести к химическому дисбалансу и вызвать депрессию?
⠀
В принципе, при дальнейшей расшифровке процессов в мозге результаты также проливают свет на то, что создает человеческий интеллект. «Это дает нам новый взгляд на то, что происходит в нашем мозге в повседневной жизни», - сказал Ботвиник.
⠀
По словам Демиса Хассабиса (одного из основателей DeepMind): «попытка извлечь сущность интеллекта в виде алгоритмической конструкции может оказаться наилучшим способом понять самые глубокие тайны нашего ума».
Интересно? Вопросы? Комментарии?