Ученые из Стэнфорда опубликовали новую работу Внедрение демократических ценностей в искусственный интеллект социальных сетей. Вот ее вводная часть.
Все больше доказательств указывает на то, что системы искусственного интеллекта (ИИ), которые ранжируют наши ленты в социальных сетях, несут нетривиальную ответственность за усиление партийной враждебности: негативные мысли, чувства и поведение по отношению к политическим аутсайдерам. Можем ли мы разработать эти ИИ, чтобы они учитывали демократические ценности, такие как смягчение партийной враждебности, как часть их целевых функций? Мы представляем метод перевода устоявшихся, проверенных социальных научных конструкций в целевые функции ИИ, которые мы называем общественными целевыми функциями, и демонстрируем метод в применении к политической научной конструкции антидемократических установок.
Традиционно у нас не было наблюдаемых результатов для использования при обучении таких моделей, однако социальные науки разработали инструменты опроса и качественные кодовые книги для этих конструкций, и их точность облегчает перевод в подробные подсказки для больших языковых моделей. Мы применяем этот метод для создания модели демократического отношения, которая оценивает степень, в которой пост в социальных сетях способствует антидемократическим установкам, и тестируем эту модель демократического отношения в трех исследованиях.
В исследовании 1 мы сначала проверяем установочную и поведенческую эффективность вмешательства среди сторонников США (N = 1380) путем ручного аннотирования (альфа = .895) постов в социальных сетях с оценками антидемократического отношения и тестирования нескольких условий ранжирования ленты на основе этих оценок. Удаление (d = .20) и понижение рейтинга ленты (d = .25) снизили партийную враждебность участников, не ставя под угрозу их опыт и вовлеченность. В исследовании 2 мы увеличиваем масштаб ручных меток, создавая модель демократического отношения, обнаруживая сильное согласие с ручными метками (rho = .75). Наконец, в исследовании 3 мы повторяем исследование 1, используя модель демократического отношения вместо ручных меток, чтобы проверить ее установочное и поведенческое воздействие (N = 558), и снова обнаруживаем, что понижение рейтинга ленты с использованием социальной целевой функции снизило партийную враждебность (d = .25).
Этот метод представляет собой новую стратегию, основанную на теории и методах социальных наук, направленную на смягчение общественного вреда в социальных сетях с использованием искусственного интеллекта.
А как Вы относитесь к инкорпорированию тех или иных этических ценностей отдельных групп людей в глобальные системы ИИ?