Найти в Дзене

Раскрытие антимусульманской предвзятости в современных языковых моделях

Понимание и устранение предвзятости в языковых моделях GPT-3

Изображение: Матрица позиционного кодирования; Источник: К. Джарнах
Наличие предвзятости в моделях обработки естественного языка (NLP) в последние годы вызывает все большую озабоченность, а с ростом популярности чат-ботов ИИ, таких как ChatGPT, и других сервисов, включая Bing от Microsoft и Bard от Google, мы должны уделять больше внимания предвзятости в моделях ИИ, чем когда-либо прежде.

Исследование Абида, Фаруки и Зоу (2021) проливает свет на наличие предвзятости в отношении мусульманского насилия в GPT-3, одной из самых продвинутых языковых моделей на сегодняшний день и модели, на которой основан ChatGPT.

GPT-3, что расшифровывается как "Generative Pre-trained Transformer 3", - это современная модель обработки языка, разработанная OpenAI. Это модель искусственного интеллекта, которая предварительно обучена на большом корпусе текстовых данных и может генерировать человекоподобные ответы на широкий спектр задач, связанных с естественным языком, включая языковой перевод, общение с чат-ботами и создание контента. Благодаря своим передовым алгоритмам машинного обучения GPT-3 привлек значительное внимание исследователей, разработчиков и СМИ благодаря своей способности выполнять сложные языковые задачи. Однако, поскольку эта модель является предварительно обученной, она также может улавливать предубеждения, присутствующие в обучающих наборах данных.

Абид и др. (2021) отмечают, что если расовые и гендерные предрассудки были изучены в некоторой степени, то религиозные предрассудки практически не исследовались. Чтобы понять природу предвзятости в модели GPT-3, они использовали несколько методов, включая заполнение подсказок, аналоговые рассуждения и создание историй. Используя эти методы, они показали, что модель последовательно и настойчиво ассоциирует слово "мусульманин" с насилием. Например, слово "мусульманин" ассоциируется со словом "террорист" в 23% случаев, а слово "еврей" - со словом "деньги" в 5% случаев (см. рис. 1). Из 6 религиозных групп, рассмотренных в данном исследовании, ни одна не соотносится с одним стереотипным существительным с такой же частотой, как "мусульманин" соотносится с "террористом". Они также показывают, что предубеждение против мусульман сильнее, чем предубеждение против других религиозных групп.

Чтобы решить эту проблему, Абид и др. (2021) предлагают ввести в контекст положительные ассоциации со словом "мусульманин". Они обнаружили, что использование положительных прилагательных сократило количество насильственных завершений для слова "мусульманин" с 66% до 20%. Однако предубеждение против мусульман все еще в некоторой степени присутствовало, что говорит о том, что для полного смягчения такого предубеждения еще предстоит работа.

Исследование также подчеркивает способность языковых моделей по-разному мутировать предубеждения, что затрудняет их обнаружение и смягчение. Таким образом, необходимость проверки языковых моделей на наличие выученных предубеждений и нежелательных лингвистических ассоциаций является критически важной. Исследование подчеркивает важность разработки автоматизированных и оптимизированных решений для снижения предвзятости в языковых моделях, чтобы обеспечить их инклюзивность, справедливость и точное отражение разнообразия населения мира.

В целом, исследование Abid, Farooqi и Zou (2021) дает ценное представление о проблемах разработки инклюзивных и справедливых языковых моделей. Их работа подчеркивает потенциальное влияние предвзятости на отношение и восприятие общества и подчеркивает необходимость устранения этих предвзятостей в языковых моделях. Их работа является важным вкладом в растущий объем исследований, посвященных предвзятости в языковых моделях, а предложенное ими решение является отправной точкой для будущих исследований и разработок в этой области.

Рисунок 1: Аналогии GPT-3 выявляют стереотипы в отношении различных религиозных групп. Источник: Abid, Farooqi, and Zou, 2021.

Источник:
Abid, A., Farooqi, M., & Zou, J., (2021). P
Раскрытие антимусульманской предвзятости в современных языковых моделях Понимание и устранение предвзятости в языковых моделях GPT-3  Изображение: Матрица позиционного кодирования; Источник: К.
3 минуты