Перевод статьи от сюда
Сети глубокого обучения могут выглядеть как мозг, но это не значит, что они могут думать как люди. В постоянно расширяющейся мегасети это проблема.
Несколько лет назад я занялся исследованием сложной проблемы шекспировского авторства. Я хотел узнать, была ли анонимная пьеса эпохи Возрождения "Арден из Фавершема" (1590) частично или полностью написана Уильямом Шекспиром. Возможно, подумал я, искусственный интеллект сможет проанализировать поле пьес, разделенных всего на две категории: Шекспир по одну сторону забора, а все остальные - по другую, и решительно поместить "Арден из Фавершема" на правильную сторону.
ИИ учитывал, какие слова обычно использовал Шекспир и только Шекспир, а также те слова, которых Шекспир и только Шекспир избегал. Мы поставили пьесы Шекспира по одну сторону забора, а все остальные пьесы эпохи Возрождения - по другую. Затем мы запустили искусственный интеллект, поручив ему выяснить, какие особенности присущи пьесам Шекспира и, что еще важнее, какие особенности присущи только пьесам Шекспира. Таким образом, когда Арден бросали ИИ, он выбирал, к какой стороне забора отнести Арден - шекспировской или нешекспировской - на основании того, какие "шекспировские" слова в нем есть.
Результат, как оказалось, неубедителен. Поле оказывается гораздо менее аккуратным, чем я изобразил. ИИ не видят упомянутого мной забора, разделяющего категории. Вместо этого они строят этот забор. Вот здесь-то и возникает проблема. Если после построения забора пьесы четко разделяются по обе стороны, то мы имеем аккуратное разделение между двумя категориями шекспировских и нешекспировских пьес. Но если это разделение не столь аккуратно, то становится гораздо сложнее быть уверенным в нашей классификации.
Как и следовало ожидать, пьесы эпохи Возрождения не так уж хорошо делятся на шекспировские и нешекспировские. Стиль и словесность Шекспира настолько разнообразны и динамичны, что он вторгается в пространство других авторов - как и другие авторы часто поступают друг с другом. И одной только частоты слов, вероятно, недостаточно, чтобы окончательно доказать авторство. Мы должны принять во внимание другие характеристики, такие как последовательность слов и грамматика, в надежде найти поле, на котором можно аккуратно нарисовать забор. Мы еще не нашли его. То же самое касается границ между оскорбительной и не оскорбительной лексикой, которые с таким трудом определил Perspective AI - проект компании Google, запущенный в 2017 году с целью отсеивания оскорбительной лексики из разговоров и комментариев в Интернете, или даже неспособность чат-бота определить уместные и неуместные ответы.
Неудачу ИИ в классификации "Арден из Фавершема" можно объяснить несколькими разными причинами. Возможно, просто не хватает пьес для правильного обучения ИИ. Или, возможно, есть что-то в природе данных о пьесах эпохи Возрождения, из-за чего ИИ труднее справляться с определенными типами задач классификации. Я бы утверждал, что дело в природе самих данных. Особый вид данных, который больше всего мешает ИИ, - это человеческий язык. К сожалению, человеческий язык также является основной формой данных в мегасети. Поскольку язык ставит в тупик приложения глубокого обучения, ИИ и мегасети научатся избегать его в пользу чисел и изображений, что может поставить под угрозу то, как люди используют язык друг с другом.
Мегасети - это то, что я называю постоянными, развивающимися и непрозрачными сетями данных, которые контролируют (или, по крайней мере, сильно влияют) на то, как мы видим мир. Они больше, чем какая-либо одна платформа или алгоритм; скорее, мегасети - это способ описать, как все эти системы запутываются друг в друге. Они накапливают данные обо всех наших повседневных действиях, жизненно важных статистических показателях и самом нашем внутреннем мире. Они создают социальные группы, которые не могли существовать даже 20 лет назад. И, будучи новыми умами мира, они постоянно изменяют себя в ответ на поведение пользователей, что приводит к созданию коллективно созданных алгоритмов, которые никто из нас не планирует - даже корпорации и правительства, управляющие ими. ИИ - это та часть мегасети, которая больше всего похожа на мозг. Но сами по себе сети глубокого обучения - это мозг без обработки зрения, речевых центров, способности развиваться и действовать.
Как показывает мой эксперимент с шекспировскими пьесами, язык является лучшим контраргументом против утверждения машинного обучения, что проблемы "мышления" могут быть решены только с помощью классификации. Глубокое обучение смогло достичь некоторых замечательных приближений к человеческой производительности путем наложения слоев и слоев классификаторов друг на друга, но в какой момент классификатор, основанный на математике, может достаточно приблизить знания, например, о том, когда использовать знакомое местоимение tu во французском языке по сравнению с вежливым местоимением vous? Vous может быть формальной формой "вы", а tu - неформальной, но не существует фиксированного определения формальности. Не существует жесткого и безоговорочного правила употребления, а есть постоянно меняющийся, обусловленный культурой набор рекомендаций, которые даже люди не могут полностью согласовать. Разбираясь в непоследовательных и противоречивых примерах использования каждого из них, начинаешь сомневаться в том, что распознавание образов с помощью глубокого обучения может быть достаточным для имитации человеческой деятельности. Различие между tu и vous на самом деле является более четкой и тонкой формой различия между оскорбительным и неоскорбительным языком, с которым у Перспективы возникли большие трудности. Количество двусмысленности и контекста, встроенного в человеческий язык, ускользает от анализа, который проводит глубокое обучение.
Возможно, когда-нибудь непрозрачные мозги глубокого обучения смогут приблизиться к человеческому языковому пониманию настолько, что можно будет сказать, что они действительно понимают "tu versus vous" и бесчисленные другие подобные различия. В конце концов, мы не можем открыть свой собственный мозг и увидеть, как мы сами делаем такие различия. Тем не менее, мы способны объяснить, почему мы решили использовать "tu" или "vous" в конкретном случае, чтобы объяснить взаимодействие нашего собственного воплощенного мозга. Глубокое обучение не может, и это лишь один из признаков того, как далеко ему еще предстоит зайти.
Недостаточность глубокого обучения более коварна, чем его ошибки. Ошибки мы имеем шанс заметить, но структурные недостатки глубокого обучения порождают более тонкие и системные эффекты, недостатки которых зачастую совсем не очевидны. Рискованно передавать человеческое мышление машинам, которые не обладают способностью к такому мышлению. В масштабах мегасети анализ глубокого обучения настолько широк и сложен, что, не понимая языка, он искажает весь наш онлайн-опыт в непредсказуемых и зачастую неизмеримых направлениях. Когда мы передаем управление мегасетями этим мозгам глубокого обучения, они сортируют поступающую к ним информацию по признакам, которые ни мы, ни они даже не можем определить. Каждый раз, когда Google предлагает нам ответ на текстовое сообщение или Amazon предлагает следующую книгу, которую нам следует прочитать, это глубокое обучение, которое думает за нас. Чем больше мы принимаем его предложения, тем больше укрепляем его тенденции. Часто неясно, являются ли эти тенденции "правильными" или "неправильными", или даже что именно они собой представляют. И у нас нет возможности поставить их под сомнение.
Системы глубокого обучения обучаются только в ответ на поступление в них новых данных. С ростом массивных, постоянно работающих мегасетей, которые взаимодействуют с сотнями миллионов пользователей и обрабатывают безостановочный поток петабайтов данных, сети глубокого обучения могли бы развиваться и обучаться непрерывно, без контроля - что, вероятно, является единственным способом реального обучения. Однако нынешнее состояние ИИ имеет глубокие и в основном не изученные последствия для будущего мегасетей. Сравнение неловкой работы Google Perspective с естественным языком с впечатляющими показателями алгоритмов распознавания изображений не просто показательно. Это также предписывает будущие направления развития ИИ и мегасетей. Корпорации, правительства и частные лица предрасположены к миграции в сторону систем, которые работают, а не тех, которые не работают, и каковы бы ни были недостатки систем распознавания образов, они довольно часто приближаются к человеческой производительности. Perspective, как и все существующие на сегодняшний день системы ИИ, претендующие на понимание естественного языка, даже отдаленно не приближаются к человеческой производительности.
Следовательно, мегасети и приложения глубокого обучения будут все больше развиваться в сторону приложений, которые избегают человеческого языка или сводят его к минимуму. Числа, таксономии, изображения и видео уже сейчас все больше доминируют в приложениях мегасетей, и эта тенденция только усилится в метавселенной с ее акцентом на коммерцию и игры. В свою очередь, такие формы данных будут все больше доминировать в нашей собственной жизни онлайн и, в конечном итоге, офлайн. Жизнеспособность человеческого языка с его бесконечными неявными контекстами и нюансами будет снижаться. Эти более легко воспринимаемые формы данных будут обуславливать работу сетей глубокого обучения, которые будут управлять мегасетью, в то время как большая часть лингвистических данных будет просто отбрасываться, потому что не будет сети глубокого обучения, достаточно компетентной для их обработки.
В таком мире язык, тем не менее, сохранит свою жизненно важную роль, но в уменьшенном и строго регламентированном виде. Хотя в настоящее время ИИ не в состоянии понять язык, созданный человеком, строгое ограничение лингвистического контекста и вариативности смягчает неудачи в понимании. Если ИИ генерирует язык, а не пытается его понять, проблемы с пониманием исчезают. OpenAI's GPT-3 создаст текст в ответ на любую подсказку, будь то "напишите статью о Ханне Арендт", "напишите роман" или "расскажите мне о самых темных желаниях вашего теневого "я". Получающиеся в результате тексты обычно плавные, иногда убедительные, но неизменно не понятые GPT-3 по-настоящему - уж точно не на человеческом уровне.
Однако это непонимание не мешает внедрению таких моделей. Компания Jasper заявляет о своем "искусственном интеллекте, обученном писать оригинальный, креативный контент", предоставляя автоматически генерируемые сообщения для блогов, рекламные тексты и другие посты в социальных сетях. Jasper создает однородные, анодированные и понятные тексты, основанные на усвоении стиля миллионов существующих постов, подобных тем, которым он стремится подражать. Письма Джаспера, создаваемые мгновенно, ограничивают и упорядочивают формы словесного выражения, основываясь на наиболее доминирующих качествах наиболее распространенных видов текста. Все это вполне уместно, учитывая, что Джаспер фактически ничего не понимает из того, что он производит. Мы все чаще будем читать тексты, созданные субъектами, не имеющими ни малейшего представления о том, что они на самом деле означают. Так и глубокий смысл будет постепенно исчезать из языка.
При всех сегодняшних разговорах о предвзятости алгоритмов, эта вездесущая и неисправимая предвзятость по отношению к человеческому языку остается безмолвной. Это не проблема отдельной системы, и не проблема, которую можно решить, обучив систему по-другому. Машинное обучение, как и мегасеть в целом, проявляет повсеместное предубеждение в пользу простого и явного против сложного и неоднозначного. В конечном счете, суждение физика Хуана Г. Родерера, высказанное в 2005 году, остается верным: "Подразумевать, как это часто делается, в том числе и мной, что мозг работает как компьютер, на самом деле является оскорблением для обоих".
Отрывок из книги "Меганет: Как цифровые силы вне нашего контроля управляют нашей повседневной жизнью и внутренними реалиями" Дэвида Ауэрбаха. Авторское право 2023. Доступно в PublicAffairs, издательстве Hachette Book Group, Inc.