ImageNet Roulette, проект в области цифрового искусства и приложение для вирусных селфи, рассказывает о том, как предвзятость проникла в технологии искусственного интеллекта, изменяющие нашу жизнь.
Когда рано утром в среду Табонг Кима проверил свой канал в Твиттере, хэштегом этого момента был #ImageNetRoulette.
Казалось, что все загружали селфи на сайт, где какой-то искусственный интеллект анализировал каждое лицо и описывал увиденное. Сайт «Рулетка ImageNet» привязал одного человека к «сироте». Другой был «некурящим». Третий, в очках, был «черт, молот, болван, вон, слабак».
В твиттере г-на Кимы в Твиттере эти ярлыки - некоторые точные, какие-то странные, какие-то безумные - использовались для смеха. Поэтому он присоединился. Но г-ну Киме, 24-летнему афроамериканцу, не понравилось то, что он увидел. Когда он загрузил свое собственное улыбающееся фото, сайт отметил его как «правонарушителя» и «преступника».
«У меня может быть плохое чувство юмора, - написал он в твиттере, - но я не думаю, что это особенно смешно».
Как оказалось, его ответ был именно тем, к чему стремился сайт. ImageNet Roulette - это проект в области цифрового искусства, призванный пролить свет на причудливое, необоснованное и оскорбительное поведение, которое может проникнуть в технологии искусственного интеллекта, которые быстро меняют нашу повседневную жизнь, включая службы распознавания лиц, используемые интернет-компаниями, полицейскими департаментами и другие правительственные учреждения.
Распознавание лиц и др. А.И. технологии изучают свои навыки, анализируя огромные объемы цифровых данных. Эти данные, взятые из старых веб-сайтов и академических проектов, часто содержат скрытые искажения и другие недостатки, которые оставались незамеченными в течение многих лет. Рулетка ImageNet, разработанная американским художником Тревором Пагленом и исследователем Microsoft по имени Кейт Кроуфорд, стремится показать глубину этой проблемы.
«Мы хотим показать, как слои предвзятости, расизма и женоненавистничества переходят из одной системы в другую», - сказал г-н Паглен в телефонном интервью из Парижа. «Суть в том, чтобы люди могли видеть работу, которая делается за кулисами, чтобы видеть, как нас постоянно обрабатывают и классифицируют».
Обнародованный на этой неделе как часть выставки в музее Fondazione Prada в Милане, сайт фокусирует внимание на огромной базе фотографий под названием ImageNet. Впервые созданная более десяти лет назад группой исследователей из Стэнфордского университета, расположенного в Силиконовой долине в Калифорнии, ImageNet сыграла важную роль в развитии «глубокого обучения» - математического метода, позволяющего машинам распознавать изображения, в том числе лица.
ImageNet с более чем 14 миллионами фотографий, собранных по всему Интернету, был способом обучения А.И. системы и судя по их точности. Анализируя различные виды изображений, таких как цветы, собаки и автомобили, эти системы научились их идентифицировать.
То, что редко обсуждалось среди сообществ, знающих об А.И. является то, что ImageNet также содержит фотографии тысяч людей, каждый из которых отсортирован по своим категориям. Это включало в себя простые теги, такие как «чирлидеры», «сварщики» и «бойскауты», а также высоко заряженные ярлыки, такие как «провал, неудачник, неудачник, неудачник» и «шлюха, шлюха, неопрятная женщина, троллоп».
Мясо убийство. Но ты уже знаешь это.
Создавая проект, который использует такие ярлыки, будь то безобидные или нет, мистер Паглен и мисс Кроуфорд показывают, как мнение, предвзятость и иногда оскорбительные точки зрения могут стимулировать создание искусственного интеллекта.
Этикетки ImageNet были нанесены тысячами неизвестных людей, скорее всего, в Соединенных Штатах, нанятых командой из Стэнфорда. Работая через краудсорсинговый сервис Amazon Mechanical Turk, они зарабатывали пенни за каждую помеченную ими фотографию, перетаскивая сотни меток в час. Когда они это сделали, в базу данных были внесены предубеждения, хотя невозможно знать, были ли эти предубеждения удержаны теми, кто маркировал.
Они определили, как выглядит «неудачник». И «шлюха». И «преступник».
Эти ярлыки изначально были взяты из другой обширной коллекции данных под названием WordNet, своего рода концептуальный словарь для машин, созданный исследователями из Принстонского университета в 1980-х годах. Но с этими подстрекательскими ярлыками исследователи Стэнфорда, возможно, не поняли, что они делали.
Искусственный интеллект часто обучается на обширных наборах данных, которые даже его создатели не совсем успокоили. «Это происходит все время в очень большом масштабе - и это имеет последствия», - сказала Лиз О'Салливан, которая курировала маркировку данных в стартапе искусственного интеллекта Clarifai и теперь является частью группы по защите гражданских прав и конфиденциальности, которая называется Проект по надзору за технологиями наблюдения, направленный на повышение осведомленности о проблемах с ИИ системы.
Многие из меток, используемых в наборе данных ImageNet, были экстремальными. Но те же самые проблемы могут распространяться на ярлыки, которые могут показаться безобидными. В конце концов, что определяет «мужчина» или «женщина», открыто для обсуждения.
«При маркировке фотографий женщин или девочек, люди не могут включать в себя небинарных людей или женщин с короткими волосами», - сказала г-жа О’Салливан. «Тогда вы в конечном итоге с А.И. модель, в которую входят только женщины с длинными волосами ».
В последние месяцы исследователи показали, что услуги по распознаванию лиц от таких компаний, как Amazon, Microsoft и IBM, могут быть предвзятыми по отношению к женщинам и цветным людям. В рамках этого проекта г-н Паглен и г-жа Кроуфорд надеялись привлечь больше внимания к проблеме - и они это сделали. В какой-то момент на этой неделе, когда проект стал распространяться на таких сервисах, как Twitter, рулетка ImageNet генерировала более 100 000 ярлыков в час.
«Для нас было полной неожиданностью, что это произошло так же, как и раньше», - сказала г-жа Кроуфорд, находясь с г-ном Пагленом в Париже. «Это позволило нам действительно увидеть, что люди думают об этом и действительно взаимодействуют с ними».
Для некоторых это была шутка. Но другие, как г-н Кима, получили сообщение. «Они довольно хорошо показывают, в чем проблема - не то, чтобы я не знал об этой проблеме раньше», - сказал он.
Тем не менее, мистер Пэглен и мисс Кроуфорд считают, что проблема может быть даже глубже, чем думают люди.
ImageNet - это только один из множества наборов данных, которые широко используются и повторно используются техническими гигантами, стартапами и академическими лабораториями при обучении различным формам искусственного интеллекта. Любые недостатки в этих наборах данных уже распространились повсюду.
В настоящее время многие компании и исследователи работают над устранением этих недостатков. В ответ на жалобы о предвзятости Microsoft и IBM обновили свои службы распознавания лиц. В январе, когда г-н Паглен и г-жа Кроуфорд впервые обсуждали странные ярлыки, используемые в ImageNet, исследователи из Стэнфорда заблокировали загрузку всех лиц из набора данных. Теперь они говорят, что удалят многие лица.
Их давняя цель состоит в том, чтобы «решить такие проблемы, как набор данных и справедливость алгоритма, подотчетность и прозрачность», - говорится в сообщении Стэнфордской команды, опубликованном в «Нью-Йорк Таймс».
Но для мистера Паглена вырисовывается большая проблема. Основная истина заключается в том, что А.И. учится у людей - а люди предвзятые существа. «То, как мы классифицируем изображения, является продуктом нашего мировоззрения», - сказал он. «Любая система классификации всегда будет отражать ценности человека, занимающегося классификацией».