Взгляд изнутри на ближайшие и долгосрочные цели компании, разрабатывающей мозговые имплантаты.
Компания Илона Маска, занимающаяся нейротехнологиями - Neuralink - объект спекуляций и недопонимания. Просто погуглите «может ли Neuralink...», и увидите часто задаваемые вопросы. В том числе «может ли Neuralink вылечить депрессию». Или «может ли Neuralink тебя контролировать». Маск не помогает формировать "реальную" репутацию компании своими заявлениями. В том числе о том, что устройство Neuralink однажды обеспечит «симбиоз с ИИ», в котором человеческий мозг сольется с искусственным интеллектом.
Все это несколько абсурдно, поскольку мозговой имплантат Neuralink является экспериментальным устройством, которое еще не получило одобрения даже на самые элементарные клинические испытания.
Тем не менее, факт остается фактом: в Neuralink работают серьезные ученые и инженеры, которые проводят интересные исследования. Имплантируемый нейрокомпьютерный интерфейс (НКИ), который они разрабатывают, находится на острие технологий со своими сверхтонкими «нитями», которые могут проходить через ткани мозга, улавливая сигналы, а также специальными микросхемами и электроникой, которые могут обрабатывать данные от более чем 1000 электродов.
В августе 2020 года компания продемонстрировала работу технологии на свиньях. А в апреле этого года разместила на YouTube видео, в котором обезьяна использует имплантат, называемый Link, для управления курсором, играя в компьютерную игру Понг. Но команда, работающая над НКИ, не рассказывала о своих целях и о шагах, которые она предпринимает для их достижения.
В эксклюзивном интервью с IEEE Spectrum Джозеф О’Доэрти, нейроинженер из Neuralink и руководитель группы, работающей с сигналами мозга, рассказывает о миссии компании.
Джозеф О'Доэрти рассказал о:
- Стремлении к мировому рекорду
- Аппаратном обеспечении
- Программном обеспечении
- Над чем он сейчас работает
- Об ограничениях
Стремление к мировому рекорду
IEEE Spectrum: Илон Маск часто говорит о возможностях Neuralink в далеком будущем; будущем, в котором обычные люди могли бы пойти на добровольную операцию и имплантировать Link, чтобы расширить свои возможности. На кого нацелен этот продукт?
Джозеф О’Доэрти: Мы работаем над коммуникационным протезом, который вернет парализованным людям возможность управлять клавиатурой и мышью. Мы стремимся к тому, чтобы скорость набора текста была сравнима с той, что доступна остальным, а это, очевидно, непростая задача. Но такова наша цель.
У нас в распоряжении есть очень хорошее устройство, и мы знаем о различных алгоритмических методах, которые использовали другие. Таким образом, мы можем применить лучшие инженерные практики, чтобы подтянуть некоторые аспекты работы. Для создания НКИ нужно хорошее записывающее устройство, но также нужно уделять особое внимание дешифратору, потому что это закрытая система. Необходимо внимательно следить за этим аспектом замкнутого цикла, чтобы он мог показывать высокую производительность.
У нас есть внутренняя цель - побить мировой рекорд по скорости передачи информации от НКИ. Мы очень близки к тому, чтобы превзойти известный нам лучший показатель. И тогда возникает следующий вопрос: насколько далеко мы сможем зайти?
Я и моя команда пытаемся достичь этой цели и побить мировой рекорд. Мы либо сделаем все, что сможем, либо выясним почему у нас не получилось, и как улучшить устройство.
Аппаратное обеспечение
IEEE Spectrum: за годы система Neuralink претерпела значительные конструктивные изменения. Когда я общался с вашей командой в 2019 году, система не была полностью имплантируема, было много сомнений относительно конструкции нитей, количества электродов на нить и имплантируемого чипа. Как сейчас выглядит устройство?
О’Доэрти: Нити часто называют самим нейронным интерфейсом - это физическая часть, которая непосредственно взаимодействует с тканью мозга. Общий подход остался неизменным на протяжении всего времени: наша гипотеза состоит в том, что если сделать нити чрезвычайно маленькими и гибкими, это положительно повлияет на срок службы устройства. Мы надеемся, что иммунная система не будет отторгать нити, по крайней мере насколько это возможно. Очевидно, что такой подход сопряжен с трудностями, поскольку все эти мелкие детали должны оставаться работоспособными в течение долгих лет. А многие методы, которые используются для повышения надежности, связаны с увеличением толщины, добавлением слоев и созданием барьеров.
IEEE Spectrum: Полагаю, вам приходится идти на множество компромиссов между размером и надежностью.
О’Доэрти: В мире есть и другие гибкие и очень крутые нейронные интерфейсы, о которых мы читаем в научных публикациях. Но зачастую они демонстрируют работоспособность в течение одного часа или одного дня, пока проводится эксперимент. Тогда как нам нужно, чтобы все работало много-много-много-много дней подряд. Это совершенно другой уровень принятия решений.
IEEE Spectrum: Когда я общался с вашей командой в 2019 году, на каждую нить приходилось по 128 электродов. Это изменилось?
О’Доэрти: Сейчас мы устанавливаем по 16 контактов на нить, расстояние между которыми составляет 200 микрон. Ранние устройства были более плотными, но с точки зрения взаимодействия с нейронами в различных слоях коры головного мозга - это было слишком. Мы могли записывать одни и те же нейроны на нескольких соседних каналах, когда расстояние между контактами составляло примерно 20 микрон. Так, мы могли очень хорошо охарактеризовать отдельные считываемые нейроны, но для этого требовалась большая плотность, а значит большая мощность. Все это может отлично работать для исследований в нейронауке, но не совсем подходит, если ваша цель - создать работающий продукт.
Это одна из причин, почему мы изменили дизайн - чтобы распределить контакты по коре головного мозга, а также по множеству нитей в области коры. Так у нас не будет лишней информации. Текущий дизайн предполагает 16 каналов на нить. Мы размещаем 64 таких нити где угодно в пределах коры - в сумме 1024 канала. Эти нити подключены к одному крошечному устройству размером меньше четвертака, в котором есть алгоритмы, обнаружение всплесков, аккумулятор, телеметрия и прочее.
Помимо 64x16, мы также тестируем конфигурации 128x8 и 256x4, чтобы проверить, есть ли прирост производительности. У нас есть возможность использовать любую конфигурацию из 1024 электродов.
IEEE Spectrum: у каждого устройства Link несколько микросхем?
О’Доэрти: Да. Оборудование представляет собой 256-канальный чип, всего их четыре, в сумме 1024 канала. Link функционирует как одно устройство, но на самом деле состоит из четырех микросхем.
IEEE Spectrum: Я полагаю, вы постоянно обновляете программное обеспечение по мере работы, но что насчет аппаратного обеспечения? Работа завершена?
О’Доэрти: Мы постоянно работаем над продуктом. Но это тот случай, когда нам необходимо доказать безопасность конкретной версии устройства, чтобы мы могли использовать его на людях. Мы делаем так называемые "проверки дизайна", фиксируем версию устройства в период, в который мы очень хорошо можем его описать, а также описать, как мы проверяем его безопасность. Затем мы можем вносить изменения, но мы делаем это в рамках инженерного контроля. Мы описываем, что мы меняем, а затем можем сказать: это изменение несущественно для безопасности, или мы должны снова провести тесты.
Программное обеспечение
IEEE Spectrum: Похоже, что большая часть обнаружения всплесков [нейронной активности] выполняется на чипах. Это решилось с течением времени? Кажется, несколько лет назад оно проводилось на внешнем устройстве.
О’Доэрти: Верно. У нас немного другой подход к обнаружению всплесков. Позвольте мне сначала обрисовать картинку. В нейронауке часто бывает не просто обнаруживать всплески. Для начала нужно их засечь, а затем отсортировать по принципу от какого нейрона они произошли. То есть вы обнаружили всплеск на канале, а затем осознаете: «О, да тут пять разных нейронов». Так из какого нейрона поступил этот всплеск? Как связать каждый всплеск с нейроном, который его сгенерировал? Это очень сложная вычислительная задача. Зачастую это делается на постобработке, то есть после того, как вы запишите кучу данных, вам нужно выполнить кучу математических расчетов.
Есть еще одна крайность - когда вы просто устанавливаете порог напряжения и говорите, что каждый раз, когда что-то пересекает этот порог, это всплеск. А потом просто считаете, сколько таких всплесков было. Это все. Это вся информация, которую вы можете использовать.
«Если вы бросаете мне мяч, а НКИ требуется пять секунд, чтобы понять, что я хочу протянуть руку, - уже слишком поздно. Я пропущу мяч».
Обе крайности нам не подходят. В первом случае выполняется множество вычислений, которые, скорее всего, невозможно выполнить на маленьком устройстве. Во втором случае вы очень зависите от помех и артефактов, потому что много чего может пересечь порог напряжения, помимо всплеска активности нейронов. Поэтому мы используем что-то среднее - ищем формы, которые выглядят как сигналы, генерируемые нейронами. Мы передаем эти события вместе с несколькими дополнительными битами информации о всплеске, например, насколько он высокий, широкий и т.д.
Мы раньше делали это с внешней частью устройства. В то время, когда мы проверяли этот алгоритм, наша пропускная способность была гораздо выше, потому что система была подключена проводами. Таким образом, мы смогли передавать большой объем данных и разработать этот алгоритм. Затем команда разработчиков микросхем взяла его и реализовала в аппаратном обеспечении. Так что теперь все это происходит на чипе. Он автоматически корректирует параметры - он должен узнать о статистическом распределении напряжения в мозгу. А затем он просто обнаруживает всплески и отправляет их в дешифратор.
IEEE Spectrum: Сколько данных вы сейчас получаете с устройства?
О’Доэрти: Мы засекаем всплески в пределах 25-миллисекундного окна или «бина». Так, векторы информации, которые мы используем в наших алгоритмах управления системой замкнутого цикла, являются факторами количества всплесков: 1024 на 25 миллисекунд. Мы подсчитываем, сколько всплесков происходит на каждом канале и отправляем. Нам нужно всего около четырех битов на бин, так что это четыре бита, умноженные на сорок бинов в секунду, умноженные на 1024 канала, или около 20 килобайт на каждую секунду.
Такая степень сжатия стала возможной благодаря тому, что мы обнаруживаем всплески с помощью нашего собственного алгоритма на чипе. Максимальная пропускная способность составит 1024 канала, умноженные на 20 000 образцов в секунду, а это довольно много. Это если мы бы могли отправить все. Но сжатая версия - это просто количество произошедших всплесков - ноль, один, два, три, четыре, сколько угодно - умноженное на 1024 канала.
Для нашего приложения, которое управляет нашим коммуникационным протезом, это сжатие данных - хороший вариант, и у нас все еще остаются полезные сигналы для управления системой замкнутого цикла.
IEEE Spectrum: Когда вы говорите об управлении системой замкнутого цикла, что это значит в данном контексте?
О’Доэрти: В большинстве случаев машинное обучение - открытая система. Допустим, у вас есть изображение, и вы анализируете его с помощью модели, а затем получаете какие-то результаты, например, обнаружение лиц на фотографии. Вы хотите прийти к какому-то результату, а как быстро вы это сделаете, как правило, не имеет значения. Но здесь пользователь является участником процесса - пользователь думает о движении, а дешифратор в реальном времени расшифровывает это намерение, а затем предпринимает какие-то действия. Он должен действовать очень быстро, иначе все бессмысленно. Если вы бросаете мне мяч, а НКИ требуется пять секунд, чтобы понять, что я хочу протянуть руку, - уже слишком поздно. Я пропущу мяч.
Таким образом, пользователь управляет своими действиями, основываясь на визуальной обратной связи о том, что делает дешифратор: вот что я имею в виду под замкнутым циклом. У пользователя появляется намерение совершить движение; оно расшифровывается устройством Neuralink; предполагаемое движение осуществляется в реальности посредством выполнения физического действия, например с помощью курсора или робо-руки; пользователь видит результат этого действия; и эта обратная связь влияет на то, какое движение пользователь решит сделать дальше. Полагаю, ближайшая аналогия - это шлем виртуальной реальности: если между тем, что вы делаете, и тем, что вы видите есть большой лаг, это дезориентирует, потому что буквально ломает эту замкнутую систему.
Над чем он работает прямо сейчас
IEEE Spectrum: Что должно произойти, чтобы вы могли стать лучшими в мире?
О’Доэрти: Шаг первый - найти причины задержек и устранить их все. Нам нужны низкие задержки по всей системе. Это включает в себя обнаружение всплесков; их обработку на имплантате; это включает радио, которое должно их передавать - есть множество вопросов относительно сжатия с помощью Bluetooth, это может увеличить задержку. Включает в себя принимающую сторону, где на этапе вывода модели выполняется обработка, и даже включает рисование пикселей на экране для курсора, которым вы управляете. Любая, даже небольшая задержка, влияет на закрытую систему.
«Если нам придется потратить много времени на обучение дешифратора - это не лучший пользовательский опыт».
IEEE Spectrum: Хорошо, давайте представим, что задержки вы устранили. Что дальше?
О’Доэрти: Шаг второй - это сам дешифратор и модель, которую он использует. Модель обладает большой гибкостью - она может быть очень простой, очень сложной, очень нелинейной или очень глубокой с точки зрения глубокого обучения - сколько слоев имеет вся ваша сеть. Но у нас есть ограничения. Нам нужно, чтобы модель дешифратора работала быстро, поэтому мы не можем использовать сложный дешифратор, который очень точен, но бесполезен, потому что ему нужно слишком много времени. Мы также потенциально заинтересованы в дешифраторе на самом имплантате, но это требует как невысокого потребления памяти, чтобы нам не приходилось хранить множество параметров в очень ограниченной среде, так и эффективности вычислений, чтобы снизить количество циклов. Но в этом пространстве мы можем сопоставлять нейронные всплески с движением. Существуют очень простые линейные модели и нелинейные модели, которые дают нам большую гибкость в понимании всего разнообразия нейронной динамики. Мы хотим найти золотую середину.
Другие факторы включают скорость, с которой мы можем откалибровать дешифратор под пользователя. Если обучение дешифратора занимает много времени, это не лучший пользовательский опыт. Нам нужно что-то, что быстро подключится к сети и даст пользователю много времени для практики с устройством.
Мы также делаем упор на надежные модели. Мы не хотим перекалибровать или настраивать дешифратор каждый день. Нам нужен такой, который работает с первого дня и будет работать еще долгое время. Нам нужны дешифраторы, которые калибруются самостоятельно, даже если пользователь об этом не задумывается. Он просто занимается своими повседневными делами, а устройство настраивает само себя.
IEEE Spectrum: Есть ли еще какие-нибудь фишки с дешифраторами или хитрости, которые вы придумали, и о которых можете мне рассказать?
О’Доэрти: Есть кое-что, что кажется нам особенно полезным, - это расшифровка намерения. Когда пользователь НКИ перемещает курсор, ему обычно нужно задержаться на цели в течение определенного времени, чтобы это считалось щелчком. Пользователь задержался на кнопке 200 миллисекунд, значит он решил на неё нажать. Это нормально, но предполагает некоторую задержку, потому что пользователю приходится ждать, чтобы нажатие произошло. Но если мы расшифруем намерение напрямую, это позволит пользователю управлять мышью намного быстрее.
«Пользователь должен получить навыки работы с нейропротезами, как и любой другой навык».
Это то, над чем мы работаем - у нас пока нет результатов. Но потенциально мы можем заглянуть в будущее. Представьте, что вы делаете движение с помощью курсора, управляемого мозгом, и я знаю, где вы сейчас находитесь ... но, может быть, я также знаю, куда вы собираетесь передвинуть курсор через секунду. Если я это знаю, я могу просто телепортировать вас туда, гораздо быстрее.
И, честно говоря, практика - это одна из составляющих. Пользователь должен обучиться навыкам работы с нейропротезами, так же как научится печатать - как с любым другим навыком. Мы видели это на практике с приматами, и я слышал, что так же было с людьми, участвовавшими в испытаниях BrainGate. Итак, нам нужен дешифратор, процесс обучения с которым будет проходить проще.
Помимо этого, можно порассуждать о том, что можно было бы сделать. Например, двумя пальцами вы печатаете на телефоне быстрее, чем одним пальцем. Итак, представьте, что нужно расшифровать намерение движения двух пальцев для управления вашей клавиатурой и мышью. Это потенциально может быть способом повышения производительности.
IEEE Spectrum: Каков текущий мировой рекорд по скорости НКИ?
О’Доэрти: Кришна Шеной из Стэнфорда отслеживал это в таблицах показателей НКИ, включая недавнюю статью его группы. Этот документ установил рекорд с максимальной скоростью передачи данных в 6,18 бит в секунду - это с участием людей. Для приматов рекорд составляет 6,49 бит в секунду.
IEEE Spectrum: Сможете ли вы доказать, что ваш НКИ лучший в мире, проводя тесты на приматах, или для этого вам нужно начать проводить исследования с людьми?
О’Доэрти: Хороший вопрос. Приматы не могут говорить и читать по-английски, поэтому в некоторой степени нам приходится делать предположения. Человеку можно сказать: вот предложение, которое вам нужно скопировать, перепишите его как можно точнее. А потом мы смотрим на производительность. Для обезьян мы можем создать цепочку последовательностей и попросить их сделать это быстро, и таким образом вычислить показатели производительности. Обезьяны мотивированы, и они будут выполнять эти задачи. Так что в принципе я не вижу у одних или других каких-то преимуществ. Для лингвистических и семантических задач, таких как расшифровка речи или текста непосредственно из вашего мозга, нам, конечно же, придется проводить исследования на людях. Но пока мы не дошли до этого момента, и даже после этого, приматы и другие животные будут важны для тестирования технологии.
Об ограничениях
IEEE Spectrum: Ранее вы говорили, что ваша команда либо установит новый мировой рекорд, либо выяснит почему вы не можете этого сделать. Почему это может не сработать?
О’Доэрти: Управление 2D-курсором - не многомерная задача. Вероятно, существуют ограничения, связанные с намерением и скоростью. Подумайте, сколько времени требуется, чтобы перемещать курсор к цели: это время, которое требуется пользователю, чтобы перейти от точки A к точке B, и время, необходимое для нажатия, когда он находится в точке B. А если он ошибся и нажал не ту кнопку? Это плохо. Они должны быстрее перемещаться между пунктами A и B, и должны нажимать точно, им нельзя ошибаться.
«Теперь мы знаем, что обезьяны могут играть в Понг, но могут ли они играть во Фруто Ниндзю?»
В какой-то момент мы упремся в потолок, потому что мозг не будет успевать. Если курсор движется слишком быстро, пользователь даже не увидит его движения. Я думаю, что ограничения будут исходить не от самого нейронного интерфейса, а от перемещения курсора. Тогда нам придется подумать о других интересных способах взаимодействия с мозгом, чтобы выйти за рамки этого ограничения. Есть и другие способы общаться, которые могут быть лучше - возможно, это потребует набора текста десятью пальцами. Я думаю, вопрос о том, где этот потолок - открыт.
IEEE Spectrum: Обе игры, в которые играла обезьяна, были основаны на управлении курсором: поиск целей и использование курсора для перемещения ракетки в Понге. Можете ли вы представить себе тесты с приматами, выходящие за рамки этого?
О’Доэрти: Приматы могут научиться и другим более сложным задачам. Обучение может быть длительным, потому что мы не можем сказать им, что делать; мы должны показывать и постепенно переходить к более сложным вещам. Да, теперь мы знаем, что обезьяны могут играть в Понг, но могут ли они играть во Фруто Ниндзю? Конечно придется потренироваться, но я думаю, что это в их силах.
IEEE Spectrum: Есть ли что-нибудь еще, что вы хотите добавить про технологию, работу, которую вы делаете, или о том, как вы это делаете?
О’Доэрти: Я впервые начал работать над НКИ в исследовательской среде. Проблемы, которые у нас возникают в Neuralink, отличаются от проблем, связанных с созданием НКИ для академической демонстрации. Мы заинтересованы в продукте, в удобстве пользователя, в надежности и в том, чтобы это устройство было полезным в течение длительного периода времени. И эти приоритеты ведут нас путем несколько иной оптимизации, чем если бы мы делали это для разовой демонстрации. Нам очень понравилась демо игры в Понг, но мы работаем не для того, чтобы делать демо Понга. Это всего лишь тизер того, что станет возможным, когда мы выведем наш продукт на рынок.
Видео-разбор - что такое Neuralink и к чему стремится компания Илона Маска?