Найти в Дзене

Потеря конфиденциальности или ваше лицо в базе данных.

Крупнейшее в истории исследование данных распознавания лиц показывает, насколько распространение глубокого обучения привело к потере конфиденциальности.
GETTY
В 1964 году математик и компьютерный ученый Вудро Бледсо впервые попытался сопоставить лица подозреваемых с фотографиями. Он измерил расстояния между различными чертами лица на отпечатанных фотографиях и ввел их в компьютерную программу.
Оглавление

Крупнейшее в истории исследование данных распознавания лиц показывает, насколько распространение глубокого обучения привело к потере конфиденциальности.

GETTY
GETTY

В 1964 году математик и компьютерный ученый Вудро Бледсо впервые попытался сопоставить лица подозреваемых с фотографиями. Он измерил расстояния между различными чертами лица на отпечатанных фотографиях и ввел их в компьютерную программу. Его рудиментарные успехи положили начало десятилетиям исследований в области обучения машин распознаванию человеческих лиц.

Теперь новое исследование показывает, насколько это предприятие разрушило нашу частную жизнь. Это не просто привело к появлению более мощного инструмента наблюдения. Последнее поколение распознавания лиц на основе глубокого обучения полностью нарушило наши нормы согласия.

Дебора Раджи, сотрудник некоммерческой организации Mozilla, и Женевьев Фрид, консультирующая членов Конгресса США по вопросам алгоритмической ответственности, изучили более 130 наборов данных по распознаванию лиц, собранных за 43 года. Они обнаружили, что исследователи, движимые стремительно растущими требованиями глубокого обучения к данным, постепенно отказывались просить согласия людей. Это привело к тому, что все больше и больше личных фотографий людей без их ведома включались в системы наблюдения.

Это также привело к гораздо более беспорядочным наборам данных: они могут непреднамеренно включать фотографии несовершеннолетних, использовать расистские и сексистские ярлыки или иметь непоследовательное качество и освещение. Эта тенденция может помочь объяснить растущее число случаев отказа систем распознавания лиц с тревожными последствиями, такими как ложные аресты двух чернокожих в районе Детройта в прошлом году.

По словам Раджи, в первые дни люди были крайне осторожны в сборе, документировании и проверке данных о лицах. «Теперь нам все равно. Все это было заброшено », - говорит она. «Вы просто не можете уследить за миллионами лиц. После определенного момента вы даже не можете притворяться, что у вас есть контроль ».

История данных распознавания лиц

Исследователи выделили четыре основные эпохи распознавания лиц, каждая из которых была вызвана растущим желанием улучшить эту технологию. Первый этап, продолжавшийся до 1990-х годов, в основном характеризовался интенсивными вручную и медленными в вычислительном отношении методами.

trashbox.ru
trashbox.ru

Но затем, осознав, что распознавание лиц может отслеживать и идентифицировать людей более эффективно, чем отпечатки пальцев, Министерство обороны США вложило 6,5 миллионов долларов в создание первого крупномасштабного набора данных о лицах. Более 15 фотосессий за три года, в рамках проекта было снято 14 126 изображений 1199 человек. База данных Face Recognition Technology (FERET) была выпущена в 1996 году.

В следующем десятилетии наблюдался всплеск академических и коммерческих исследований распознавания лиц, и было создано гораздо больше наборов данных. Подавляющее большинство из них было получено посредством фотосессий, таких как FERET, и было получено полное согласие участников. Многие также включали подробные метаданные, говорит Раджи, такие как возраст и этническая принадлежность субъектов или информация об освещении. Но эти ранние системы испытывали трудности в реальных условиях, что заставляло исследователей искать более крупные и разнообразные наборы данных.

В 2007 году выпуск набора данных «Помеченные лица в дикой природе» (LFW) открыл шлюзы для сбора данных с помощью веб-поиска. Исследователи начали загружать изображения напрямую из Google, Flickr и Yahoo, не беспокоясь о согласии. LFW также смягчила стандарты включения несовершеннолетних, используя фотографии, найденные по таким запросам, как «ребенок», «несовершеннолетний» и «подросток», чтобы увеличить разнообразие. Этот процесс позволил создать значительно большие наборы данных за короткое время, но распознавание лиц по-прежнему сталкивается со многими из тех же проблем, что и раньше. Это подтолкнуло исследователей к поиску еще большего количества методов и данных, чтобы преодолеть низкую производительность технологии.

Chart: MIT Technology Review Source: Raji & Fried Created with Datawrapper (График использования источников для наборов данных по лицам)
Chart: MIT Technology Review Source: Raji & Fried Created with Datawrapper (График использования источников для наборов данных по лицам)

Затем, в 2014 году, Facebook использовал свои фотографии пользователей для обучения модели глубокого обучения под названием DeepFace. Хотя компания никогда не публиковала набор данных, сверхчеловеческие возможности системы превратили глубокое обучение в де-факто метод анализа лиц. Именно тогда ручная проверка и маркировка стали почти невозможными, поскольку наборы данных выросли до десятков миллионов фотографий, - говорит Раджи. Это также когда начинают появляться действительно странные явления, такие как автоматически генерируемые ярлыки, содержащие оскорбительную терминологию.

Примерно в это же время начал меняться способ использования наборов данных. Вместо того, чтобы пытаться сопоставить людей, новые модели стали больше фокусироваться на классификации. «Вместо того, чтобы говорить: «Это фотография Карен? Да или нет», это превратилось в «Давайте предскажем внутреннюю личность Карен или ее этническую принадлежность» и разделим людей на эти категории», - говорит Раджи.

Амба Как, директор по глобальной политике AI Now, который не участвовал в исследовании, говорит, что эта статья дает четкое представление о том, как развивалась отрасль биометрии. Глубокое обучение, возможно, и спасло технологию от некоторых проблем, но «этот технологический прогресс также стал дорогой», - говорит она. «Возникли все эти проблемы, с которыми мы теперь хорошо знакомы: согласие, извлечение, проблемы с IP, конфиденциальность».

Вред, который порождает вред

Раджи говорит, что ее расследование данных серьезно обеспокоило ее распознаванием лиц на основе глубокого обучения.

«Это намного опаснее», - говорит она. «Требование данных заставляет вас собирать невероятно конфиденциальную информацию, как минимум, о десятках тысяч людей. Это заставляет вас нарушать их конфиденциальность. Это само по себе является причиной вреда. А затем мы накапливаем всю эту информацию, которую вы не можете контролировать, чтобы построить что-то, что, вероятно, будет работать так, как вы даже не можете предсказать. Это действительно характер того, где мы находимся».

Она надеется, что статья побудит исследователей задуматься о компромиссе между увеличением производительности, полученным в результате глубокого обучения, и потерей согласия, тщательной проверки данных и тщательной документации. «Стоило ли отказываться от всех этих практик ради глубокого обучения?».

Она призывает тех, кто хочет продолжить развитие распознавания лиц, подумать о разработке различных техник: «Чтобы мы действительно попытались использовать этот инструмент, не причиняя вреда людям, потребуется пересмотреть все, что мы о нем знаем»

P.S. А как считаете Вы, слово "конфиденциальность" сегодня имеет основу под собой? Или это всего лишь слово и в действительности никакой конфиденциальности нет?