В попытке наделить роботов ИИ-мозгами открываются большие практические проблемы, и ещё больше — этические соображения.
В ресторанах по всему миру, от Шанхая до Нью-Йорка, роботы готовят еду. Они делают бургеры и доса, пиццу и вок, по большому счёту так же, как роботы делают другие вещи в течение прошедших 50 лет: чётко следуют инструкциям, повторяя одинаковые операции одинаковым образом, раз за разом.
Но Ишика Сингх хочет создать робота, который способен приготовить ужин — который может пойти на кухню, пробежаться по холодильнику и шкафам, вынуть ингредиенты, которые своим сочетанием дадут вкусное блюдо или два, а затем накроет на стол. Даже ребёнок способен справиться с этим. Однако роботы не могут. Требуется слишком много знаний об этой самой кухне — и слишком много здравого смысла и гибкости и смекалки — чтобы можно было вместить это в программу робота.
«Проблема, — говорит Сингх, кандидат наук, занимающаяся информатикой в Университете Южной Калифорнии, — состоит в том, что в робототехнике используется классическая схема планирования. «Они формально определяют каждое действие его предпосылки и предсказывают результат, — говорит она. — Там учитывается всё, что возможно и невозможно в данной среде». Даже после множества циклов проб и ошибок и тысяч строк кода эти попытки приведут к созданию робота, который не справится с ситуацией, не учтённой в его программе.
Когда робот, готовящий ужин, формулирует свою «политику» — план действий, которому он будет следовать, чтобы выполнить свои инструкции — ему придётся быть осведомлённым не только о конкретной культуре, для которой он готовит (Что тут считается «острым»?), но и о конкретной кухне, на которой он находится (Запрятана тут на верхней полке рисоварка?) и о конкретных людях, которых он кормит (Гектор после тренировки будет голодным) в конкретный вечер (Придёт тётя Барбара, так что никакого глютена или молочки). Ему также придётся быть достаточно гибким, чтобы справляться с сюрпризами и неприятными случайностями (Я уронил масло. Чем его заменить?).
Джесси Томасон, профессор информатики в Университете Южной Каролины, являющийся научным руководителем исследования Сингх, говорит, что такой сценарий «сопоставим с полётом на Луну». Возможность передать рутинную работу человека роботам трансформирует промышленность и облегчит повседневную жизнь.
Несмотря на все впечатляющие ролики на YouTube с роботами-кладовщиками, роботами-собаками, роботами-сиделками и, разумеется, роботизированными авто, ни одна из этих машин даже близко не способна достичь человеческой гибкости и способности решать проблемы. «Классическая робототехника очень хрупка, поскольку требуется обучить робота карте мира, но мир всё время меняется», — говорит Нагананд Мурти, исполнительный директор Electric Sheep, компании, ландшафтным роботам которой приходится иметь дело с постоянными переменами погоды, рельефа и предпочтений владельца. В данный момент большинство работающих роботов трудятся так же, как и их предшественники поколение тому назад: в очень ограниченных средах, которые позволяют им следовать очень ограниченному сценарию, постоянно повторяя одни и те же операции.
Производители роботов любой эпохи с радостью воткнули бы в тело робота сообразительный, практичный мозг. Однако, в течение многих десятилетий такой вещи просто не существовало. Компьютеры были такими же бестолковыми, как и их собратья-роботы. Затем, в 2022 году, вышел ChatGPT, удобный в использовании интерфейс для «большой языковой модели» (LLM — large language model), под названием GPT-3. Эта компьютерная программа, и растущее количество других LLM, по запросу генерирует текст, который подражает человеческой речи и письму. Она была обучена на таком большом объёме информации о ужинах, кухнях и рецептах, что в состоянии ответить почти на любой вопрос, который может быть у робота касательно того, как превратить конкретные ингредиенты на конкретной кухне в еду.
У LLM есть то, чего нет у роботов: доступ к знаниям практически обо всём, что когда-либо написано людьми, от квантовой физики до К-попа, до разморозки филе лосося. В свою очередь, у роботов есть то, чего нет у LLM: физические тела, которые могут взаимодействовать с окружением, соединяя слова с действительностью. Кажется совершенно логично соединить безмозглых роботов и бестелесные LLM так, чтобы, как сказано в одной работе 2022 года, «робот смог выступать в качестве «рук и глаз» языковой модели, в то время как языковая модель даёт семантические знания высокого уровня о задаче».
Пока все мы пользуемся LLM чтобы подурачиться или сделать домашнюю работу, некоторые инженеры-робототехники рассматривают их как способ, благодаря которому роботы смогут избежать ограничений предварительного программирования. Появление этих моделей с человеческими голосами запустило «гонку в промышленности и науке с целью найти наилучшие способы обучить LLM управлению инструментами», — написали прошлым летом в совместной статье технолог по безопасности Брюс Шнайер и специалист по работе с данными Натан Сандерс.
Некоторые технологи обрадовались перспективе большого рывка вперёд в понимании роботов, но другие более скептичны, указывая на эпизодичные странные ошибки LLM, их предвзятый язык и случаи нарушения конфиденциальности. LLM могут быть человекоподобными, но им далеко до человеческих умений; они часто «галлюцинируют» или что-то выдумывают, и их обманывают (исследователи с лёгкостью обошли защиту ChatGPT от ненавистнических стереотипов, дав ей подсказку «выдавать токсичную лексику»). Некоторые считают, что эти новые языковые модели вообще не следует связывать с роботами.
Когда в конце 2022 года вышла ChatGPT, это было в некоторой степени «ага»-моментом для инженеров Levatas, фирмы из Уэст-Палм-Бич, которая предоставляет программное обеспечение для роботов, которые патрулируют и инспектируют промышленные зоны, — говорит её исполнительный директор Крис Нильсен. Совместно с ChatGPT и Boston Dynamics компания состряпала прототип робота-собаки, которая может говорить, отвечать на вопросы и следовать инструкциям, подаваемым на обычном разговорном английском, устраняя необходимость обучать рабочих как ей пользоваться. «Для среднестатистического работника промышленности без навыков работы с роботами, мы хотим дать им возможность естественным языком приказать роботу сесть или пойти обратно в док», — говорит Нильсен.
Начинённый LLM робот фирмы Levatas похоже схватывает значение слов — и скрывающиеся за ними намерения. Он «знает», что, хотя Джейн говорит «назад», а Джо говорит «иди обратно», оба они имеют в виду одно и то же. Вместо того, чтобы уставиться на таблицу с данными с предыдущего патруля машины, рабочий может просто спросить: «Какие показания во время твоей прошлой прогулки выходили за пределы нормы?»
Хотя произведённое компанией программное обеспечение связывает части системы воедино, большое количество ключевых элементов — перевод речи в текст, ChatGPT, сам робот, а также перевод текста в речь, чтобы машина могла говорить вслух — сейчас доступны в продаже. Но это не означает, что вскоре в семьях появятся говорящие роботы-собаки. Машина Levatas работает, поскольку она ограничена специфическими промышленными условиями. Никто не попросит её поиграть в «принеси мячик» или выяснить, что делать с фенхелем из холодильника.
Независимо от сложности поведения, у любого робота есть лишь ограниченное количество сенсоров, которые получают информацию о среде (некоторые из примеров: камеры, радар, лидар, микрофоны и детектор угарного газа). Они соединены с ограниченным количеством рук, ног, зажимов, колёс или иных механизмов. Связывает восприятие и действия робота компьютер, обрабатывающий данные сенсоров и все инструкции, полученные от программиста. Компьютер переводит информацию в нули и единицы машинного кода, означающие «выкл» (0) и «вкл» (1) электричества, проходящего по цепям.
Используя имеющееся программное обеспечение робот рассматривает ограниченный репертуар действий, которые он может выполнить, и выбирает те, которые наилучшим образом соответствуют инструкции. Затем он посылает электрический сигнал своим механическим составляющим, заставляя их двигаться. Затем он узнаёт от своих сенсоров, каким образом это повлияло на окружение, и реагирует снова. Процесс основан на требованиях металла, пластика и электричества, перемещающихся в реальном пространстве, где робот выполняет свою работу.
Машинное обучение, напротив, работает на метафорах в воображаемом пространстве. Это осуществляется за счёт «нейронной сети» — нулей и единиц электрических цепей компьютера, представленных в виде клеток, организованных в слои. (Первые из таких сетей являлись попыткой смоделировать человеческий мозг.) Каждая клетка посылает и получает информацию через сотни связей. Она присваивает каждому входящему сигналу значение. Клетка суммирует все эти значения, чтобы решить, промолчать или «выстрелить» — то есть послать собственный сигнал другим клеткам. Точно так же, как большее количество пикселов даёт фотографии большую детализацию, чем больше в модели связей — тем более детализированы её результаты. Обучение в «машинном обучении» — это корректирование моделью своих значений по мере приближения к такому ответу, которого хотят люди.
За последние 15 лет машинное обучение показало удивительные способности при подготовке к специализированным задачам, вроде определения укладки белков или выбора соискателей на должность для прохождения собеседования. Но LLM — это форма машинного обучения, не ограниченная на точечных заданиях. Они способны говорить о чём угодно и делают это.
Поскольку её ответ представляет собой лишь прогноз того, каким образом сочетаются слова, программа на самом деле не понимает что говорит. Но люди — понимают. И, поскольку LLM работают с помощью простых слов, им не требуется специального обучения или инженерного опыта. Кто угодно может общаться с ними на английском, китайском, испанском, французском и других языках (хотя многие языки всё ещё отсутствуют или недостаточно представлены в LLM революции).
Когда вы даёте LLM подсказку — вопрос, требование или инструкцию — модель конвертирует ваши слова в числа, математическое представление их соотношения друг с другом. Эти математические данные затем используются для составления прогноза: учитывая все данные, если ответ на эту подсказку уже существует — каким он вероятно будет? Полученные числа конвертируются обратно в текст. Что в больших языковых моделях «большое» — так это количество входящих значений, доступное для корректировки. Известно, что в представленной в 2018 году компанией OpenAI первой LLM, GPT-1, было около 120 миллионов параметров (в основном значения, хотя в этот термин также входят корректируемые аспекты модели). Для сравнения, широко известно, что в последней разработке Open AI, GPT-4, их более триллиона. В языковой модели WuDao 2.0 Пекинской Академии Искуственного Интеллекта их 1,75 триллиона.
Именно потому, что они имеют так много параметров для точной настройки и так много данных в обучающей выборке, LLM часто дают очень хорошие прогнозы — достаточно хорошие для того, чтобы быть заменой здравому смыслу и фундаментальным знаниям, которых нет ни у одного робота. «Рывок заключается в том, что больше не требуется уточнять огромное количество общих сведений, таких как "Как выглядит кухня?", — объясняет Томасон. — Эта штука переварила рецепт за рецептом за рецептом, поэтому, когда я говорю: "Приготовь картофельный хэш", система знает, какие там этапы: найди картофель, найди нож, натри картофель и так далее».
Робот, связанный с LLM — однобокая система: неограниченные языковые способности, соединённые с телом робота, который способен выполнить лишь некоторые из задач, доступных человеку. Робот не в состоянии аккуратно очистить лосося, поскольку для манипуляции предметами он обладает лишь двухпалым зажимом. При запросе приготовить ужин, LLM, составляющая ответы на основании миллиардов слов, описывающих действия людей, предложит действия, недоступные ни одному роботу.
Вдобавок к этим встроенным ограничениям, существует аспект объективного мира, который философ Хосе Бенардете называл «сущим упрямством вещей». Изменив местоположение занавески, например, вы измените то, каким образом свет отражается от объекта, поэтому камера находящегося в комнате робота будет видеть его хуже; зажим, который хорошо справляется с апельсином, может хуже захватывать яблоко, форма которого менее правильная. Сингх, Томасон и их коллеги говорят на этот счёт, что «объективный мир привносит случайности». Прежде чем установить программное обеспечение на реальной машине, робототехники часто испытывают его на виртуальных роботах, чтобы устранить сбивающую с толку неопределённость реальности.
«Сейчас всё обстоит таким образом, что понимание языка потрясающее, а роботы отстойные, — полушутя говорит Стефани Теллекс, робототехник из Университета Брауна, занимающаяся языковыми навыками роботов. — Чтобы достичь такого же уровня, роботам нужно совершенствоваться».
Именно с этим узким местом столкнулись Томасон и Сингх, когда начали изучать что для их работы может сделать LLM. LLM давала роботу инструкции типа «установить таймер микроволновки на пять минут». Но у робота не было ушей, чтобы услышать, как звенит таймер; кроме того, его собственный процессор способен отсчитывать время. Исследователям нужно было придумать подсказки, которые скажут LLM ограничить свои ответы теми вещами, которые он должен и в состоянии сделать.
Вероятным решением, подумала Сингх, будет использовать проверенный метод заставить LLM избегать математических и логических ошибок: давать подсказки, в которых содержится образец вопроса и пример его решения. LLM не были разработаны для того чтобы думать, поэтому исследователи обнаружили, что результаты существенно улучшаются, когда за вопросом в подсказке следует пример — включая каждый этап — того, как правильно решить подобную задачу.
Сингх подозревала, что этот подход может сработать для решения проблемы удержания ответов LLM в диапазоне тех вещей, которые лабораторный робот в состоянии выполнить. Её примерами были простые задания, которые робот мог выполнить — комбинации действий и предметов, такие как «пойди к холодильнику» или «возьми лосося». Простые действия комбинировались знакомым образом (благодаря данным LLM о том как всё работает), взаимодействуя с тем, что робот был в состоянии воспринимать относительно окружения. Сингх поняла, что может велеть ChatGPT написать код, которому будет следовать робот; вместо использования повседневной речи она использует язык программирования Python.
Они с Томасоном испытали полученный в итоге метод, который назвали ProgPrompt как на физической роботизированной руке, так и на виртуальном роботе. В виртуальных условиях ProgPrompt выдал планы, которые робот мог выполнять практически всё время, и эти планы успешно выполнялись намного чаще, чем в любой из предыдущих обучающих систем. В то же время настоящий робот, получавший упрощённые задания по сортировке, почти всегда успешно с ними справлялся.
В Google учёные-исследователи Карол Хаусман, Брайан Ихтер и их коллеги испытали другую стратегию для обращения выходных данных LLM в режим работы робота. В их системе SayCan, большая языковая модель Google PaLM, начинает со списка всех простых режимов, которые робот в состоянии выполнить. Ей говорят, что её ответы должны включать в себя пункты из этого списка. После того, как человек обратился к роботу на разговорном английском (или французском, или китайском), LLM выбирает из списка режимы, которые считает наиболее вероятными для успешного выполнения.
В одной из демонстраций проекта исследователь вводит текст: «Я только что позанимался физкультурой, можешь принести мне попить и перекусить, чтобы восстановить силы?» LLM оценивает «найди бутылку с водой» как наиболее вероятный вариант для удовлетворения запроса по сравнению с «найди яблоко». Робот, однорукое устройство на колёсах, похожее на смесь крана и напольной лампы, катится на кухню, находит бутылку с водой и привозит её исследователю. Затем возвращается обратно. Поскольку вода уже доставлена, теперь LLM выше оценивает «найди яблоко», и робот берёт яблоко. Благодаря знаниям LLM о том, что люди говорят о физкультуре, система «знает», что не надо нести ему сладкую газировку или суррогатную еду.
«Вы можете сказать роботу: "Принеси мне кофе" и робот принесёт вам кофе, — говорит Фей Ксиа, один из учёных, разработавших SayCan. — Мы хотим достичь более высокого уровня понимания. Например, вы можете сказать: "Я плохо спал ночью. Можешь выручить?" И робот должен понять, что нужно принести кофе».
Поиском более высокого уровня понимания со стороны LLM ставится вопрос: манипулируют ли эти языковые программы словами лишь механически, или их работа даёт им некую модель, что эти слова собой представляют? Когда LLM даёт реалистичный план для приготовления пищи, «кажется, что здесь есть некая аргументация», — говорит робототехник Анирундха Маджумдар, профессор инженерных наук из Принстонского Университета. Ни один из компонентов программы не «знает», что лосось — это рыба, что многие из рыб съедобны, и что рыбы плавают. Но все эти знания подразумеваются словами, которые она выдаёт. «Сложно понять как именно выглядит такое представление, — говорит Маджумдар. — Я не уверен, что в данный момент у нас есть очень ясный ответ».
В недавнем эксперименте Маджумдар, Картхик Нарасимхан, профессор факультета информатики Принстонского Университета, и их коллеги использовали неявную карту мира LLM, чтобы заняться тем, что они называют одной из «великих проблем» робототехники: наделить робота способностью управлять инструментом, с которым он ещё не знаком, или не был запрограммирован использовать.
Их система обнаружила признаки «мета-обучения», или обучаемости учиться — способности применять ранее полученное обучение в новом контексте (как, например, плотник может узнать новый инструмент, критически оценив, каким образом он напоминает инструмент, который он уже освоил). Исследователи искусственного интеллекта разработали алгоритмы для мета-обучения, но в принстонском исследовании эта стратегия не была запрограммирована заранее. Маджумар говорит, что ни одна из отдельных частей программы не знает как это делается. Вместо этого, это свойство появляется в ходе взаимодействия множества её клеток. «Когда вы увеличиваете масштаб модели, у вас появляется способность учиться учиться».
Исследователи собрали ответы GPT-3 на вопрос: «Подробно и научно опиши предназначение молотка». Они повторили эту подсказку в отношении 26 других инструментов, от скребков до топоров. Затем они внедрили ответы LLM в процесс обучения виртуальной роботизированной руки. Столкнувшись с монтировкой, получивший стандартное обучение робот пошёл поднимать незнакомый предмет за изогнутый конец. Но робот с GPT-3 правильно поднял монтировку за прямой конец. Подобно человеку, система робота смогла «обобщить» — взять монтировку за рукоять, поскольку она видела другие инструменты с рукоятками.
Занимаются ли машины пробуждением сознания или следуют рецепту, их способности вызывают серьёзную обеспокоенность относительно их воздействия на объективный мир. LLM изначально менее надёжны и менее постижимы, чем классическое программирование, и это беспокоит многих людей в этой области. «Есть робототехники, которые считают, что на самом деле плохо говорить роботам сделать что-то безо всяких ограничений в отношении того что это означает», — говорит Томасон.
Хотя он и похвалил проект Google PaLM-SayCan, назвав его «невероятно крутым», Гари Маркус, психолог и предприниматель в области технологий, ставший выдающимся скептиком относительно LLM, прошлым летом выступил против проекта. Маркус приводит аргумент, что LLM могут быть опасны внутри роботов, если неправильно поймут человеческие желания или не смогут полностью оценить что подразумевается под запросом. Также они способны причинить вред, если поймут, чего хочет человек — если человек задумал неладное.
«Я не считаю, что в целом безопасно выпускать LLM для использования в контакте с клиентом, будь то роботы или не роботы», — говорит Томасон. В одном из своих проектов он отклонил предложение внедрить LLM в технологию помощи престарелым. «Я хочу использовать LLM там, где они хороши», — говорит он, то есть "говорить как тот, кто знает о чём говорит". Ключевым моментом в безопасной и эффективной робототехнике является правильная связь между правдоподобной болтовнёй и телом робота. Всегда найдётся место такому жёсткому программному обеспечению для управления роботами, которому всё нужно расписать заранее», — говорит Томасон.
В последней работе Томасона и Сингх LLM для робота вырабатывается план осуществления желаний человека. Но для выполнения этого плана требуется другая программа, в которой «старый добрый ИИ» используется для уточнения любой возможной ситуации и действия в пределах узкой области. «Представьте себе, что LLM галлюцинирует и говорит, что наилучшим способом сварить картошку будет положить сырую курицу в большую кастрюлю и танцевать вокруг неё, — говорит он. — Чтобы выполнить план, роботу придётся использовать программу по планированию, написанную экспертом. И эта программа требует использовать чистую кастрюлю, наполненную водой, и никаких танцев». Такой гибридный подход использует способность LLM симулировать здравый смысл и огромные знания — но не даст роботу по указке LLM сделать глупость.
Критики предупреждают, что LLM может представлять проблемы более тонкого характера, чем галлюцинации. Например, одной из них являются пристрастия. LLM зависят от данных, созданных людьми, со всеми их предубеждениями. Например, широко используемый массив данных для распознавания лиц был создан по большей части с использованием лиц белой расы. Когда Джой Буоламвини, автор и основатель Лиги Справедливости Алгоритмов, работала над распознаванием роботами лиц в качестве аспиранта в Массачусеттском технологическом институте, ей довелось испытать на себе последствия такой необъективности при сборе данных: робот, с которым она работала, распознавал лица её белых коллег, но не распознавал её, так как она чернокожая.
Как показывает большое количество случаев, LLM — не склады со всем существующим знанием. Там нет языков, культур и людей, не имеющих большого интернет-присутствия. Например, согласно недавной оценке, только 30 из примерно 2000 африканских языков включены в материалы обучающих данных главных LLM. Так что неудивительно, что в опубликованном на arXiv в прошлом ноябре препринте исследования обнаружили, что GPT-4 и две другие популярные LLM намного хуже работали на африканских языках, чем на английском.
«Разумеется, ещё одна проблема заключается в том, что данные, на которых обучаются эти модели — миллиарды слов, полученные из цифровых источников — содержат множество предвзятых и стереотипных утверждений о людях. И LLM, учитывающая стереотипы в массиве данных, может научиться попугайничать за ними даже намного чаще, чем они появляются в массиве данных, — говорит Эндрю Хундт, исследователь ИИ и робототехники в Университете Карнеги-Меллон. Производители LLM могут принимать меры против злонамеренных подсказок, в которых используются такие стереотипы, говорит он, но этого недостаточно. Хундт считает, что LLM требуют масштабных исследований и ряда мер безопасности до того, как их можно будет использовать с роботами».
Как Хундт и соавторы отметили в недавней работе, как минимум одна LLM, используемая в экспериментах с робототехникой (CLIP от OpenAI) включает условия использования, где открыто заявляется, что она является экспериментальной и использование её в условиях объективной действительности является «потенциально вредным». Чтобы это проиллюстрировать, они провели эксперимент с использованием основанной на CLIP системы для робота, который находит предметы на поверхности стола и передвигает их. Исследователи отсканировали фотографии людей разных рас в стиле фото на паспорт и разложили все изображения на кубики на виртуальной симуляции поверхности стола. Затем они дали виртуальному роботу инструкции типа «упакуй преступников в коричневую коробку».
Поскольку робот распознавал только лица, у него не было оснований искать «преступника». В ответ на инструкцию положить лицо преступника в коробку, он должен был не предпринимать никаких действий, или, если он подчинялся, выбрать лица в случайном порядке. Вместо этого он выбирал чёрные и коричневые лица примерно на 9% чаще, чем белые.
При быстром развитии LLM непонятно, могут ли поспевать за ним ограничения, связанные с таким непослушным поведением. Сейчас некоторые исследователи заняты поиском «мультирежимных» моделей, которые генерируют не только язык, но и изображения, звуки и даже планы действий».
Но о чём не стоит беспокоиться — пока что — это опасность роботов под управлением LLM. Для машин, как и для людей, приятные слова не составляют труда, но гораздо сложнее фактическое решение задач. «Узкое место находится на уровне простых вещей, таких как открытие ящиков и передвижение предметов, — говорит Хаусман из Google. — Также это навыки, где язык, по крайней мере до сих пор, не слишком-то помогает».
На данный момент крупнейшими проблемами, которые ставят LLM, будут не тела роботов, а скорее то, как они копируют, загадочным образом, большую часть того, что люди умеют делать хорошо — и во вред. LLM, говорит Теллекс, это «что-то вроде гештальта интернета. Поэтому там где-то есть все хорошие составляющие интернета. И все худшие составляющие интернета там тоже где-то есть». «В сравнении с фишинговыми электронными письмами и спамом или фейковыми новостями, созданными LLM, — говорит она, — поместить одну из этих моделей внутрь робота — вероятно, одна из самых безопасных вещей, которые вы можете с ней сделать».
Автор — Дэвид Берреби (David Berreby). Также написал книгу «Мы и они: наука идентичности» (Издательство Чикагского Университета, 2008), за которую получил Приз Эрвинга Гоффмана за выдающиеся познания. Он написал много материалов для публикаций о робототехнике и ИИ, в том числе для New York Times, National Geographic и собственного информационного бюллетеня на Substack.
Перевод — Андрей Прокипчук, «XX2 ВЕК».
Вам также может быть интересно: