2417 подписчиков

ИИ разрывает Википедию на части

9 мая 20239 мая 2023

163

6 мин

Волонтеры, поддерживающие цифровую энциклопедию, расходятся во мнениях относительно того, как бороться с распространением контента и дезинформации, создаваемых искусственным интеллектом.

Автор Клэр Вудкок

По мере того, как генеративный искусственный интеллект продолжает проникать во все аспекты культуры, мнения людей, отвечающих за Википедию, расходятся во мнениях относительно того, как лучше поступить.

Во время недавней телеконференции с сообществом стало очевидно, что в сообществе существуют разногласия по поводу того, следует ли использовать большие языковые модели для создания контента. В то время как некоторые люди заявили, что такие инструменты, как ChatGPT от Open AI, могут помочь в создании и обобщении статей, другие по-прежнему настороженно относились к этому.

Проблема заключается в том, что машинный контент должен быть сбалансирован с большим количеством человеческих обзоров и перегрузить менее известные вики плохим контентом. Хотя генераторы ИИ полезны для написания правдоподобного, похожего на человека текста, они также склонны включать ошибочную информацию и даже цитировать несуществующие источники и научные статьи.

Это часто приводит к тому, что текстовые сводки кажутся точными, но при ближайшем рассмотрении оказываются полностью сфабрикованными.

Эми Брукман — регент-профессор и старший заместитель председателя школы интерактивных вычислений в Технологическом институте Джорджии и автор книги «Стоит ли верить Википедии?»: Интернет-сообщества и создание знаний. По ее словам, подобно людям, которые конструируют знание в обществе, большие языковые модели хороши ровно настолько, насколько хороша их способность отличать факты от вымысла.

«Наш единственный выход — использовать [большие языковые модели], но отредактировать их и попросить кого-нибудь проверить источник», — сказал Брукман.

Исследователям не потребовалось много времени, чтобы понять, что ChatGPT от OpenAI — ужасный изготовитель, что обычно обрекает студентов, которые полагаются исключительно на чат-бота при написании своих эссе. Иногда будет выдумывать статьи и их авторов. В других случаях он соединит имена менее известных ученых с более плодовитыми, но сделает это с предельной уверенностью.

OpenAI даже сказал, что модель «галлюцинирует», когда она составляет факты — термин, который подвергся критике некоторыми экспертами по ИИ как способ для компаний ИИ избежать ответственности за их инструменты, распространяющие дезинформацию.

«Риск для Википедии заключается в том, что люди могут снизить качество, добавляя материалы, которые они не проверяли», — добавил Брукман. «Я не думаю, что есть что-то плохое в том, чтобы использовать его в качестве первого наброска, но каждый пункт должен быть проверен».

Фонд Викимедиа, некоммерческая организация, стоящая за веб-сайтом, изучает инструменты для создания инструментов, которые упростят для добровольцев идентификацию контента, созданного ботами. Тем временем Википедия работает над проектом политики, которая устанавливает ограничения на то, как добровольцы могут использовать большие языковые модели для создания контента.

В текущем проекте политики отмечается, что любой, кто не знаком с рисками больших языковых моделей, должен избегать их использования для создания контента Википедии, потому что это может открыть Фонд Викимедиа для исков о клевете и нарушениях авторских прав — и от того, и от другого некоммерческая организация получает защиту, но от Википедии добровольцев нет. Эти большие языковые модели также содержат неявные предубеждения, которые часто приводят к тому, что контент искажается в отношении маргинализированных и недостаточно представленных групп людей.

Сообщество также разделилось во мнениях относительно того, следует ли разрешать крупным языковым моделям обучаться на содержании Википедии. Хотя открытый доступ является краеугольным камнем принципов дизайна Википедии, некоторые обеспокоены тем, что неограниченный сбор данных из Интернета позволяет компаниям, занимающимся искусственным интеллектом, таким как OpenAI, использовать открытую сеть для создания закрытых коммерческих наборов данных для своих моделей. Это особенно проблематично, если сам контент Википедии создается искусственным интеллектом, создавая цикл обратной связи с потенциально предвзятой информацией, если его не проверить.

В одном предложении, размещенном в списке рассылки Википедии, внимание было привлечено к идее использования BLOOM, большой языковой модели, выпущенной в прошлом году в соответствии с новой лицензией Responsible AI License (RAIL), которая «сочетает подход открытого доступа к лицензированию с поведенческими ограничениями, направленными на реализацию концепции ответственное использование ИИ». Подобно некоторым версиям лицензии Creative Commons, лицензия RAIL позволяет гибко использовать модель ИИ, а также накладывает некоторые ограничения — например, требует, чтобы любые производные модели четко указывали, что их результаты созданы ИИ, и что все, что построено на их основе соблюдать одни и те же правила.

Мариана Фоссатти, координатор глобальной кампании «Чьи знания?», направленной на обеспечение доступа к знаниям в Интернете в разных географических точках и на разных языках, — говорит, что большие языковые модели и Википедия находятся в цикле обратной связи, который вносит еще больше предубеждений.

«У нас есть огромный массив знаний более чем на 300 языках», — сказала Фоссатти. «Но, конечно, эти 300 разных языков также очень неравны. Английская Википедия содержит намного больше контента, чем другие, и мы снабжаем системы ИИ этой совокупностью знаний».

ИИ не совсем новинка для википедистов — на сайте уже давно используются автоматизированные системы для выполнения таких задач, как машинный перевод и устранение вандализма. Но есть давние волонтеры, которые менее открыты идее расширения использования ИИ на платформе.

В заявлении Фонда Викимедиа некоммерческая организация заявила, что ИИ представляет собой возможность помочь масштабировать работу добровольцев в проектах Википедии и Викимедиа.

«Основываясь на отзывах добровольцев, мы изучаем, как эти модели могут помочь устранить пробелы в знаниях и расширить доступ к знаниям и расширить участие», — заявил представитель Фонда Викимедиа в заявлении Motherboard. «Тем не менее участие человека остается самым важным строительным блоком экосистемы знаний Викимедиа. ИИ лучше всего работает как дополнение к работе, которую люди выполняют в нашем проекте».

На момент написания этой статьи проект политики включает пункт, в котором прямо указано, что для контента, созданного ИИ, необходима атрибуция в тексте. Брукман не считает, что некоторые проблемы, связанные с большими языковыми моделями, сильно отличаются от преднамеренных и злонамеренных попыток редактирования страниц Википедии.

«Я не думаю, что это сильно отличается от борьбы с вандализмом», — добавил Брукман. «У нас есть стратегии борьбы с этим. Я думаю, что непросмотренный контент, созданный ИИ, является формой вандализма, и мы можем использовать те же методы, которые мы используем для борьбы с вандализмом в Википедии, для борьбы с мусором, исходящим от ИИ».

В недавнем электронном письме в рассылку Wikimedia Foundation Селена Декельманн, директор по продуктам и технологиям организации, отметила, что между волонтерами и персоналом фонда существуют сложные проблемы, связанные с незавершенными техническими миграциями, которые влияют на принятие решений сообществом среди добровольцев.

«Мы должны иметь возможность выбирать области обслуживания и технической миграции для определения приоритетов, а затем соглашаться с тем, чтобы не выполнять работу над другими, чтобы завершить некоторые из этих крупных проектов», — сказала Декельманн в электронном письме, полученном Motherboard.

Но до тех пор, по словам Брукман, редакторам и волонтерам важно сохранять бдительность.

«Контент надежен только в том случае, если количество людей проверило его с помощью строгой практики цитирования», — сказал Брукман. «Да, у генеративного ИИ нет сильных предпочтений в отношении цитирования, поэтому мы должны это проверить. Я не думаю, что мы можем сказать людям «не используйте это», потому что этого просто не произойдет. Я имею в виду, я бы посадил джина обратно в бутылку, если бы вы мне позволили. Но учитывая, что это невозможно, все, что мы можем сделать, это проверять его».

Источник