Сложные нейросети порой довольно точно имитируют активность человеческого мозга. Но это происходит не потому, что ученые копируют «биологию»: просто устройство нашей нервной системы оказывается наиболее эффективным и с точки зрения машин. О том, как это обстоятельство приближает нас к разгадке самого сложного органа в мире, рассказывает журналист Quanta Magazine.
Зимой 2011 года Дэн Яминс, специалист по вычислительной нейробиологии из Массачусетского технологического института, часто засиживался на работе до полуночи, занимаясь своим проектом — системой, распознающей объекты на изображениях, несмотря на различия в размере, положении и прочих характеристиках. Это была глубокая нейросеть — компьютерная модель, построенная по принципу организации человеческого мозга.
«Я отчетливо помню момент, когда нам удалось создать нейросеть, которая справилась с задачей», — рассказывает он. Было два часа ночи, слишком рано, чтобы будить научного руководителя Джеймса ДиКарло или других коллег, поэтому взволнованный Яминс решил пойти прогуляться.
Находка Яминса стала прорывом в области искусственного интеллекта, но конечной целью ученых было создание компьютерной модели мозга.
ДиКарло и Яминс (который сейчас руководит собственной лабораторией в Стэнфордском университете) — представители узкого круга нейробиологов, изучающих устройство мозга при помощи глубоких нейросетей. Ученым долгое время не давал покоя вопрос функциональной специализации отделов мозга.
Они не могли понять, почему в мозге есть специальный участок для каждой отдельной функции — например, область, отвечающая за распознавание объектов в целом, и область, отвечающая конкретно за распознавание лиц. Благодаря глубоким нейросетям теперь известно, что такая специализация — наиболее эффективный способ решения задач.
Ученые также обнаружили, что глубокие нейросети, успешно обрабатывающие речь, музыку и запахи, имеют схожее устройство с системами слуха и обоняния в человеческом мозге.
Эти успехи стали неожиданностью, так как нейробиологи прежде скептически относились к сравнению мозга и нейросетей.
«Еще недавно никто в моей лаборатории не работал с глубокими нейросетями, говорит нейробиолог из МИТ Нэнси Кэнвишер, — а теперь они используются почти ежедневно».
Обработка зрительной информации
Компьютерные нейросети состоят из взаимосвязанных компонентов, называемых перцептронами, которые представляют собой упрощенные цифровые модели нейронов. Нейросеть содержит как минимум два слоя перцептронов — входящий и исходящий. Если поместить между этими слоями один или более скрытых слоев, мы получим глубокую нейронную сеть — чем больше скрытых слоев, тем глубже нейросеть.
Глубокие нейросети можно обучить находить закономерности в данных, например идентифицировать изображения котов и собак. Обучение осуществляется при помощи алгоритма, который регулирует связи между перцептронами так, чтобы распознать в определенных входящих данных (пикселях изображения) объект (кота или собаку). Обученная глубокая нейросеть может категоризировать изображения, которые никогда раньше не видела.
Нейробиологи не раз указывали на один существенный недостаток нейросетевых моделей мозга: настоящие нейроны обрабатывают информацию более тщательно, чем перцептроны.
Кроме того, в основе глубоких сетей часто лежит так называемый метод обратного распространения ошибки, который не применяется в настоящей нервной системе.
И всё же глубокие сети — это лучший способ моделирования мозга.
Исследователи использовали знания о распознавании людей и мест, а также гипотезу о двух потоках обработки зрительной информации (вентральный поток отвечает за обработку предметной информации, дорсальный — пространственной) для разработки компьютерной модели зрительной системы. У людей вентральный поток начинается с сетчатки и заканчивается в латеральном коленчатом теле — расположенной в таламусе структуры, которая играет роль ретрансляционной станции. Латеральное коленчатое тело связывается с первичной зрительной корой (V1), зонами V2 и V4 и в конечном итоге с нижней височной корой.
Главное открытие нейробиологов состоит в том, что зрительная информация обрабатывается в определенном порядке: на более ранних стадиях происходит обработка общих деталей визуального поля — контуров, очертаний, форм и цветов; тогда как более сложные данные — целые объекты и лица — обрабатываются позже в нижней височной коре.
Это открытие легло в основу глубокой нейросети, разработанной Яминсом и его коллегами.
Их сеть содержит скрытые сверточные слои, каждый из которых отвечает за обработку разных ключевых характеристик изображения. Более общие детали обрабатываются на ранних этапах, а более сложные — на поздних, как в мозге человека.
Когда сверточная нейронная сеть учится категоризировать изображения, то поначалу использует для своих фильтров случайные значения и постепенно усваивает значения, необходимые для конкретной задачи.
Четырехслойная сверточная нейросеть Яминса успешно распознала восемь категорий объектов (животные, лодки, машины, стулья, лица, фрукты, самолеты и столы) на 5760 реалистичных трехмерных изображениях. Несмотря на различия в положении и масштабе объектов, нейросети удалось распознать их не хуже, чем это сделал бы человек.
Яминс не знал, что новые открытия в области компьютерного зрения подтвердили правильность его подхода.
Вскоре после того, как он завершил работу над своей нейросетью, громко заявила о себе другая сверточная нейросеть AlexNet. Также созданная по принципу иерархической обработки информации и обученная на 1,2 миллиона аннотированных изображений, содержащих тысячу разных категорий объектов, в 2012 году на соревновании по распознаванию изображений AlexNet обошла всех своих соперников. Коэффициент ошибок AlexNet составил всего 15,3% (по сравнению с 26,2% у ее ближайшего конкурента). Благодаря победе AlexNet глубокие нейросети стали конкурентоспособными в области искусственного интеллекта и машинного обучения.
Но Яминса и других членов команды ДиКарло больше интересовала нейробиология. Раз их сверточная нейросеть (СНС) имеет аналогичную со зрительной системой архитектуру, может ли она спрогнозировать реакцию нейронов на совершенно новое изображение?
Чтобы ответить на этот вопрос, они сначала сопоставили активность искусственных нейронов их СНС с процессами, происходящими в вентральной зрительной системе двух макак-резусов. Затем с помощью СНС смоделировали реакцию определенных участков мозга макак на изображения, которых те раньше не видели.
«Сделанные нами прогнозы оказались верными, — говорит Яминс. — Более того, обнаружилось, что ранние и поздние стадии обработки в СНС соответствуют ранним и поздним стадиям в структуре мозга».
Кэнвишер хорошо помнит, как ее впечатлили результаты исследования, опубликованные в 2014 году.
«Это не доказывает, что отдельные составляющие глубокой нейросети ведут себя так же, как нейроны, — говорит она. — Тем не менее это совпадение поражает».
Обработка звука
После того, как Яминс и ДиКарло опубликовали результаты своего эксперимента, начались поиски новых и более эффективных глубоких нейросетевых моделей мозга, особенно менее изученных его областей.
По словам Джоша Макдермотта, нейробиолога из МИТ, ученым до сих пор мало известно о слуховой коре, в особенности у человека. Он надеется, что глубокие сети предоставят новые данные о том, как мозг обрабатывает звук.
Команда Макдермотта, в которую также вошли Александер Келл и Яминс, приступила к разработке глубоких нейросетей для классификации двух типов звуков: речи и музыки.
Сначала они создали компьютерную модель ушной улитки — части внутреннего уха, отвечающей за восприятие и распознавание звуков, — которая должна была обрабатывать звук и распределять его по каналам разной частоты. СНС обучили распознавать слова на аудиозаписи и отличать музыку от фонового шума. Команда пыталась создать архитектуру глубокой нейросети, которая бы успешно выполняла обе задачи и при этом не требовала значительных ресурсов.
У них было три возможных варианта:
- входной слой выполняет обе задачи, а дальше сеть разделяется на две части;
- обе задачи выполняются вместе всей нейросетью, и разделение происходит только на выходе;
- или же на некоторых стадиях обе задачи выполняются вместе, а на некоторых — по отдельности.
Как можно было предположить, нейросети с отдельными путями для обработки речи и музыки превзошли нейросети, в которых речь и музыка обрабатывались одним и тем же путем. Однако гибридная нейросеть с семью объединенными слоями и пятью парами отдельных слоев оказалась почти настолько же эффективной. Макдермотт и его коллеги решили выбрать последнюю, так как она расходовала меньше всего ресурсов.
Гибридная нейросеть показала хорошие результаты в соревновании с людьми. Кроме того, она согласуется с данными других исследований, которые говорят о том, что непервичная слуховая кора имеет отдельные области для обработки музыки и речи. А в ходе решающего теста, результаты которого были опубликованы в 2018 году, модель успешно спрогнозировала мозговую активность участников эксперимента и доказала свое превосходство над моделями, не основанными на глубоком обучении.
Кэнвишер изначально скептически относилась к возможности использования глубокого обучения в собственных исследованиях, но и ее впечатлили полученные Макдермоттом результаты.
Кэнвишер приобрела известность в 1990-х годах, когда ей удалось доказать, что область нижней височной коры — веретенообразная извилина — отвечает за распознавание лиц. Активность веретенообразной извилины намного выше, когда человек смотрит на изображения лиц, чем когда он смотрит на изображения объектов. Но зачем мозгу отдельные области для распознавания лиц и объектов?
Нейробиологам всегда было трудно отвечать на вопросы «зачем?» и «почему?». Заручившись помощью Катарины Добс и других своих коллег, Кэнвишер разработала сверхточную нейросеть VGG, более глубокий аналог AlexNet, и обучила одну нейросеть распознавать лица, а другую — объекты.
Оказалось, что глубокая сеть, обученная распознавать лица, плохо справлялась с распознаванием объектов, и наоборот. А когда ученые обучили одну нейросеть выполнять обе задачи, то обнаружили, что сеть самоорганизовалась таким образом, чтобы на более поздних этапах обрабатывать лица и объекты отдельно.
Это согласуется с принципом работы зрительной системы человека. «Мы обнаружили, что в глубоких нейросетях, умеющих выполнять обе задачи, спонтанно происходило разделение функций обработки лиц и объектов», — говорит Добс, которая сейчас работает в Гиссенском университете имени Юстуса Либиха в Германии.
«Больше всего меня радует то, что мы наконец можем ответить на вопрос, почему мозг организован именно так», — говорит Кэнвишер.
Обработка запахов
Также есть новые интересные данные о восприятии запахов. В прошлом году специалист по вычислительной нейробиологии Роберт Янг вместе со своими коллегами из Колумбийского университета разработал глубокую нейросеть, моделирующую обонятельную систему мухи-дрозофилы.
Обонятельная система мухи-дрозофилы достаточно хорошо изучена.
Первый слой, отвечающий за обработку запахов, состоит из обонятельных сенсорных нейронов, каждый из которых содержит только один из 50 видов обонятельных рецепторов. Все сенсорные нейроны одного типа (в среднем около 10 штук) соединены с одним кластером нервных клеток, расположенным на следующем слое. Кластеры нервных клеток, в свою очередь, произвольным образом соединены с нейронами следующего слоя, который называется слоем Кеньона и состоит из примерно 2500 нейронов. Последний слой, состоящий из 20 нейронов, отвечает за реакцию на запах.
Прежде чем приступить к разработке компьютерной модели, имитирующей этот процесс, Янг и его коллеги создали набор данных, имитирующих запахи. Нейроны реагируют на запахи иначе, чем на изображения. Если наложить друг на друга два изображения котов, результат может оказаться совсем не похожим на кота. Но если смешать запахи двух яблок, в итоге всё равно получится яблочный запах.
Ученые создали глубокую сеть из четырех слоев: трех слоев для обработки запахов и одного выходного слоя. Обучив нейросеть классифицировать симулированные запахи, Янг и его коллеги обнаружили, что связи в ней были такими же, как и в мозге мухи-дрозофилы. Это совпадение указывает на то, что и эволюция, и глубокая нейросеть нашли оптимальное решение.
Но Янг не спешит с выводами. «Возможно, нам просто повезло», — говорит он.
Следующий шаг — разработка глубоких сетей, способных спрогнозировать устройство обонятельной системы еще не изученного животного. «Это будет настоящим испытанием для нас», — говорит Янг.
Нейросети — больше не черные ящики
Глубокие нейросети часто называют черными ящиками из-за того, что полученные с их помощью результаты невозможно спрогнозировать на основе изучения миллионов или даже миллиардов отдельных параметров. Не станет ли глубокая нейросетевая модель мозга лишь заменой одного неизвестного другим?
«Не совсем. Нейросеть изучать всё же легче, чем мозг», — говорит Янг.
В прошлом году команда ДиКарло опубликовала результаты исследования, которые опровергают утверждение о непрозрачности глубоких нейросетей. При помощи AlexNet ученые смоделировали вентральный зрительный поток макаки и обнаружили, что группы искусственных нейронов и нервные узлы зрительной зоны V4 у макак совпадают.
Затем, используя компьютерную модель, они сгенерировали изображения, которые, по их прогнозам, должны были вызвать очень высокую активность нейронов. В ходе одного такого эксперимента активность нервных узлов повысилась на 68% относительно обычного уровня; в ходе еще одного испытания демонстрируемые изображения вызывали повышение активности одного нейрона одновременно с понижением активности соседних нейронов.
Оба этих исхода были спрогнозированы нейросетью.
Полученные результаты указывают на то, что глубокие нейросети в определенной степени прозрачны и отражают реальную активность мозга.
Стоит отметить, что совпадения в структуре и работе глубоких сетей и мозга еще не означают, что они функционируют одинаково. Однако вполне возможно, что они следуют одним и тем же принципам.
Недостатки нейросетевых моделей
Макдермотт считает, что последние исследования с применением глубоких нейросетей потенциально могут помочь в решении проблем, связанных с потерей слуха. В большинстве случаев глухота связана с повреждениями уха. Как следствие, слуховая система вынуждена адаптироваться к проблемам с входными данными. «Если бы у нас была точная модель слуховой системы, мы бы представляли, как можно улучшить слух», — говорит он.
В то же время Макдермотт осторожно относится к возможностям глубоких сетей. «Мы очень стараемся понять ограничения нейросетевых моделей», — говорит он.
Аспирантка Дженелл Фэзер вместе с другими исследователями из лаборатории Макдермотта продемонстрировала ограничения нейросетей на примере метамеров — отличающихся сигналов, которые воспринимаются системой как идентичные. Два аудиометамера, например, имеют разную форму волны, но кажутся человеку одинаковыми.
Используя глубокую нейросетевую модель слуховой системы, команда создала метамеры естественных аудиосигналов, которые активировали разные фрагменты нейросети так же, как аудиозаписи. Ученые предположили, что если нейросеть является точной моделью слуховой системы человека, то метамеры также должны звучать одинаково.
Но этого не произошло. Люди смогли распознать метамеры, которые активировали первые части нейросети; те же метамеры, которые активировали более глубокие части, звучали как шум.
«В определенных ситуациях нейросетевые модели очень точно имитируют поведение человека, но всё же им нельзя полностью доверять», — говорит Макдермотт.
В Стэнфорде Яминс занимается изучением расхождений в работе нейросетей и функционировании мозга. Нейросети часто нуждаются в большом количестве аннотированных данных для обучения, в то время как мозгу бывает достаточно лишь одного примера.
Сейчас ведется разработка глубоких нейросетей, которые смогут обучаться самостоятельно и при этом эффективно.
Кроме того, глубокие нейросети обучаются с помощью алгоритма, называемого методом обратного распространения ошибки, который, по мнению большинства нейробиологов, не может работать в настоящей нервной системе из-за отсутствия необходимых связей.
«Нам удалось достичь определенного прогресса в разработке более реалистичных с биологической точки зрения механизмов обучения, которые действительно работают», — говорит Яминс.
Джош Тененбаум, когнитивный нейробиолог из МИТ, говорит, что, хотя глубокие нейросети и являются шагом вперед, они по большей части выполняют задачи по классификации и категоризации.
Однако мозг делает намного больше. Благодаря нашей зрительной системе мы можем судить о геометрии поверхностей и трехмерной структуре пространства, а также делать выводы в реальном времени — например, осознавать, что дерево исчезло просто потому, что перед ним проехала машина.
Чтобы понять это свойство мозга, Илькер Йылдырым из Йельского университета совместно с Тененбаумом и его коллегами разработал так называемую инверсионную графическую модель. Эта модель создает 3D-сцену на основании заданных параметров рендеринга, а затем — двухмерные изображения сцены с разных точек наблюдения. Используя 3D- и 2D-данные модели, исследователи обучили модифицированную версию AlexNet прогнозировать параметры 3D-сцены на основе двухмерного изображения.
«Система учится двигаться в обратном направлении, от следствия к причине, от двухмерного изображения к трехмерной сцене», — говорит Тененбаум.
Команда испытала свою модель, проверив ее прогнозы касательно активности в нижней височной коре макак-резусов. Ученые показали макакам 175 картинок, изображающих 25 людей в семи разных позах, и зарегистрировали активность участков мозга, отвечающих за распознавание лиц. Затем они показали те же изображения глубокой сети, в которой искусственные нейроны первого слоя активировались, когда демонстрировалось двухмерное изображение, а нейроны последнего слоя — когда трехмерное. Оказалось, что последние три слоя нейросети полностью соответствуют последним трем слоям системы распознавания лиц у макак.
Это говорит о том, что мозг использует сочетание генеративной и распознавательной моделей не только чтобы идентифицировать и категоризировать объекты, но и чтобы мгновенно делать выводы. Тененбаум признает, что успех созданной его командой модели еще не доказывает, что мозг работает именно так. «Но теперь мы лучше понимаем, какие вопросы нужно задавать», — говорит он.