САН-ФРАНЦИСКО - Десятки баз данных лиц людей составляются без их ведома компаниями и исследователями, и многие из этих изображений затем распространяются по всему миру, что превратилось в обширную экосистему, способствующую распространению технологий распознавания лиц.
Базы данных собраны вместе с изображениями из социальных сетей, фото-сайтов, служб знакомств, таких как OkCupid, и камер, размещенных в ресторанах и на четырехместных студенческих площадках. Хотя нет точного подсчета наборов данных, активисты по защите конфиденциальности точно определили репозитории, созданные Microsoft, Стэнфордским университетом и другими, в одном из которых хранится более 10 миллионов изображений, а в другом - более двух миллионов.
Компиляция лица ведется гонкой за создание передовых систем распознавания лиц. Эта технология учит, как идентифицировать людей, анализируя как можно больше цифровых изображений, используя «нейронные сети», которые представляют собой сложные математические системы, требующие огромных объемов данных для построения распознавания образов.
Согласно исследованиям, такие технологические гиганты, как Facebook и Google, скорее всего, собрали самые большие наборы данных о лицах, которые они не распространяют. Но другие компании и университеты широко поделились своим имиджем с исследователями, правительствами и частными предприятиями в Австралии, Китае, Индии, Сингапуре и Швейцарии для обучения искусственному интеллекту, утверждают ученые, активисты и общественные газеты.
Компании и лаборатории собирают изображения лица уже более десяти лет, а базы данных - всего лишь один слой для создания технологии распознавания лиц. Но люди часто понятия не имеют, что их лица в них. И хотя имена обычно не прикрепляются к фотографиям, людей можно узнать, потому что каждое лицо уникально для человека.
Вопросы о наборах данных растут, потому что технологии, которые они включили, теперь используются потенциально инвазивными способами. Документы,
опубликованные в минувшее воскресенье, показали, что сотрудники Иммиграционной и таможенной служб применяли технологию распознавания лиц для сканирования фотографий автомобилистов для выявления иммигрантов без документов. ФБР также потратило более десяти лет на использование таких систем для сравнения водительских прав и фотографий виз с лицами подозреваемых в совершении преступлений, согласно
отчету Управления по подотчетности правительства в прошлом месяце. В среду на слушаниях в конгрессе рассматривалось использование этой технологии правительством.
Нет надзора за наборами данных. Активисты и другие заявили, что они были возмущены тем, что сходства людей использовались для создания этически сомнительных технологий и что изображения могут быть использованы не по назначению. По крайней мере одна база данных лиц, созданная в Соединенных Штатах, была передана китайской компании, которая была связана с этническим профилированием меньшинства уйгурских мусульман страны.
За последние несколько недель некоторые компании и университеты, в том числе Microsoft и Stanford, удалили свои наборы данных о лицах из Интернета из-за проблем с конфиденциальностью. Но, учитывая, что изображения уже были так хорошо распространены, они, скорее всего, все еще используются в Соединенных Штатах и в других местах, говорят исследователи и активисты.
«Вы видите, что эти методы навязчивы, и понимаете, что эти компании не уважают частную жизнь», - сказала Лиз О'Салливан, которая курировала одну из этих баз данных при запуске Clarifai с искусственным интеллектом. Она сказала, что покинула нью-йоркскую компанию в январе в знак протеста против такой практики.
«Чем более вездесущим становится распознавание лиц, тем больше мы все становимся частью этого процесса», - сказала она.
Google, Facebook и Microsoft отказались от комментариев.
Одна база данных, которая датируется 2014 годом, была составлена исследователями из Стэнфорда. Он назывался «Промывка мозгов», после одноименного кафе в Сан-Франциско, где исследователи стучали в камеру. За три дня камера сняла более 10000 изображений, которые вошли в базу данных, написали исследователи в статье 2015 года . В газете не указывалось, знали ли посетители кафе, что их изображения были взяты и использованы для исследований. (Кафе закрылось.)
Затем исследователи из Стэнфорда рассказали о «промывании мозгов». Согласно исследовательским работам, в Китае его использовали ученые из Национального университета оборонных технологий и Megvii, компании по искусственному интеллекту, о которой ранее сообщалось в New York Times, которая предоставила технологию наблюдения для мониторинга уйгуров .
Набор данных «промывания мозгов» был удален со своего первоначального веб-сайта в прошлом месяце после того, как на него обратил внимание активист из Германии Адам Харви, который отслеживает использование этих репозиториев через веб-сайт MegaPixels . В соответствии с документацией г-на Харви, также были удалены связи между Brainwash и документами, описывающими работу по созданию систем искусственного интеллекта в Национальном университете оборонных технологий в Китае.
Стэнфордские исследователи, которые наблюдали за «промыванием мозгов», не отвечали на запросы о комментариях. «В рамках исследовательского процесса Стэнфорд регулярно публикует исследовательскую документацию и вспомогательные материалы», - сказал представитель университета. «После того, как исследовательские материалы обнародованы, университет не отслеживает их использование, равно как и официальные лица университета».
Исследователи из Университета Дьюка также создали базу данных в 2014 году с использованием восьми камер в кампусе для сбора изображений, говорится в документе 2016 года, опубликованном в рамках Европейской конференции по компьютерному зрению. Камеры были обозначены знаками, сказал Карло Томази, профессор информатики Герцога, который помог создать базу данных. Знаки дали номер или адрес электронной почты для людей, чтобы отказаться.
Исследователи из Duke в конечном итоге собрали более двух миллионов видеокадров с изображениями более 2700 человек. Они также опубликовали набор данных под названием Duke MTMC в Интернете. Позже это было процитировано в бесчисленных документах, описывающих работу по обучению ИИ в Соединенных Штатах, в Китае, в Японии, в Великобритании и в других местах.
Исследователи из Университета Дьюка начали создавать базу данных в 2014 году, используя восемь камер в кампусе для сбора изображений. CreditOpen Data Commons Attribution License, с помощью Мегапикселей
Д-р Томази сказал, что его исследовательская группа не занималась распознаванием лиц и что МТМС вряд ли будет полезен для такой технологии из-за плохих углов и освещения.
«Наши данные были записаны для разработки и тестирования компьютерных алгоритмов, которые анализируют сложные движения в видео», - сказал он. «Это были люди, но это могли быть велосипеды, машины, муравьи, рыба, амебы или слоны».
В Microsoft исследователи утверждают, что на веб-сайте компании создан один из самых больших наборов данных о лицах. Коллекция под названием MS Celeb включала в себя более 10 миллионов изображений более 100 000 человек.
MS Celeb был якобы базой данных знаменитостей, чьи образы считаются честной игрой, потому что они являются общественными деятелями. Но MS Celeb также привел фотографии активистов в области конфиденциальности и безопасности, ученых и других, таких как Шошана Зубофф, автор книги «Эпоха капитализма наблюдения», согласно документации г-на Харви из проекта MegaPixels. MS Celeb был распространен по всему миру, а затем был удален этой весной после того, как мистер Харви и другие отметили его
Ким Зеттер, журналист по кибербезопасности в Сан-Франциско, который писал для Wired и The Intercept, был одним из людей, которые по незнанию стали частью набора данных Microsoft.
«Мы все просто фураж для развития этих систем наблюдения», - сказала она. «Идея, что этим поделятся с иностранными правительствами и военными, просто вопиющая».
Мэтт Цейлер, основатель и исполнительный директор Clarifai, стартапа AI, сказал, что его компания создала базу данных лиц с изображениями с сайта знакомств OkCupid. Он сказал, что у Clarifai есть доступ к фотографиям OkCupid, потому что некоторые из основателей сайта знакомств инвестировали в его компанию.
Он добавил, что подписал соглашение с крупной компанией в социальных сетях - он отказался раскрывать, какие именно - использовать ее изображения в обучающих моделях распознавания лиц. По его словам, условия предоставления услуг социальной сети допускают такой обмен.
«У технических компаний, таких как Clarifai, должен быть определенный уровень доверия, чтобы эффективно использовать мощные технологии и довольствоваться ими», - сказал он.
Представитель OkCupid сказал, что Clarifai связался с компанией в 2014 году «о сотрудничестве, чтобы определить, могут ли они создать беспристрастный искусственный интеллект и технологию распознавания лиц», и что сайт знакомств «не заключал никаких коммерческих соглашений тогда и не имеет с ними никаких отношений сейчас». Она не указали, получил ли Clarifai доступ к фотографиям OkCupid без его согласия.
По словам г-на Цайлера, Clarifai использовала изображения из OkCupid для создания службы, которая могла бы определять возраст, пол и расу обнаруженных лиц. Начинающий также начал работать над инструментом для сбора изображений с веб-сайта Insecam - сокращение от «небезопасная камера» - который подключается к камерам наблюдения в городских центрах и частных пространствах без разрешения. По его словам, проект Clarifai был закрыт в прошлом году после того, как некоторые сотрудники протестовали, и до того, как какие-либо изображения были собраны
Г-н Цайлер сказал, что Clarifai продаст свою технологию распознавания лиц иностранным правительствам, военным операциям и полицейским управлениям, если обстоятельства будут правильными. Он добавил, что не имеет смысла накладывать общие ограничения на продажу технологий целым странам.
Госпожа О'Салливан, бывший технолог Clarifai, присоединилась к группе по защите гражданских прав и конфиденциальности, которая называется Проект надзора за технологиями наблюдения. Теперь она является частью команды исследователей, создающих инструмент, который позволит людям проверять, является ли их изображение частью открытых общих баз данных лиц.
«Вы являетесь частью того, что сделало систему такой, какая она есть», - сказала она.