Исследователи из Университета Техаса в Остине разработали прорывной "семантический декодер", который с помощью искусственного интеллекта преобразует сканирования речевой активности человеческого мозга в перефразированный текст. Хотя он все еще относительно неточен по сравнению с исходными текстами, разработка представляет собой значительный шаг вперед для роли ИИ в технологии помощи и, как предупреждают его создатели, может быть злоупотреблен, если не будет должным образом регулируем.
Первоначально опубликованные в понедельник в журнале Nature Neuroscience, результаты команды подробно описывают новую систему, которая интегрирует генеративную программу, похожую на OpenAI's GPT-4 и Google Bard, наряду с существующей технологией способной интерпретировать сканирования функциональной магнитной резонансной томографии (fMRI) - устройства, которое отслеживает, как и где кровь течет в определенные области мозга. В то время как предыдущие интерфейсы "мозг-компьютер" (BCIs) показали перспективу в достижении подобных трансляционных способностей, версия UT Austin является, как сообщается, первой неинвазивной версией, которая не требует фактических физических имплантатов или проводки.
В рамках исследования исследователи попросили трех тестовых субъектов провести в общей сложности 16 часов внутри машины fMRI, слушая аудио подкасты. Команда, тем временем, обучала модель ИИ создавать и разбирать семантические функции, анализируя комментарии Reddit и автобиографические тексты. Объединив два набора данных, ИИ узнал и сопоставил слова и фразы, связанные со сканированием мозга субъектов, для создания семантических связей.
После этого субъектов снова попросили лежать в сканере fMRI и слушать новое аудио, которое не было частью первоначальных данных. Семантический декодер затем преобразовал аудио в текст через сканирование активности мозга и может даже производить похожие результаты, когда субъекты смотрят беззвучные видеоролики или воображают свои собственные истории. Хотя транскрипты ИИ обычно предлагали неправильно поставленные или неточно словесные ответы, общий результат все еще успешно перефразировал внутренние монологи тестовых субъектов. Иногда он даже точно отражал выбор слов в аудио. Как объясняет The New York Times, результаты указывают на то, что семантический декодер UT Austin не просто захватывает порядок слов, но их фактическое неявное значение.
Несмотря на то, что это все еще находится в очень ранней стадии, исследователи надеются, что будущие улучшенные версии могут стать мощным новым инструментом коммуникации для людей, которые потеряли возможность говорить на слух, например, для пострадавших от инсульта или тех, кто сталкивается с боковым амиотрофическим склерозом. Как оказалось, сканеры fMRI являются массивными, неподвижными машинами, ограниченными медицинскими учреждениями, но команда надеется исследовать, как подобная система может работать, используя функциональную близко-инфракрасную спектроскопию (fNIRS).
Тем не менее, новый семантический декодер имеет значительное ограничение: субъект должен приложить сознательные усилия, чтобы сотрудничать с целями программы ИИ, оставаясь сосредоточенным на своих задачах. Проще говоря, более занятый мозг означает более запутанный транскрипт. Аналогично, технология декодера также может обучаться только одному человеку в то же время.
Несмотря на эти текущие ограничения, исследовательская группа уже предвидит потенциал для быстрого прогресса наряду с злоупотреблением. “Будущие разработки могут позволить декодерам обойти эти [конфиденциальность] требования”, - написала команда в своем исследовании. “Более того, даже если предсказания декодера неточны без участия субъекта, их можно намеренно искажать для злонамеренных целей... Поэтому критически важно повышать осведомленность о рисках технологии декодирования мозга и создавать политики, которые защищают конфиденциальность каждого человека".