Найти в Дзене
Математика не для всех

В работе Латании Суини анализируется вопрос, можно ли считать набор данных анонимным, если из него удалены явные идентификаторы вроде имени

В работе Латании Суини анализируется вопрос, можно ли считать набор данных анонимным, если из него удалены явные идентификаторы вроде имени и адреса, но остаются простые демографические поля: дата рождения, пол, место жительства. Исходная мотивация связана с практикой публикации медицинских и административных данных в США. Больницы и органы власти регулярно передают исследователям и страховым компаниям выгрузки, где есть возраст или точная дата рождения пациента, пол, почтовый индекс (ZIP-код, функциональный аналог российского почтового индекса), расовая принадлежность, список госпитализаций, диагнозов и т. д. При этом имя, точный почтовый адрес, номер медицинского страхования и другие «явные» идентификаторы удаляются. Такие наборы официально назывались «de-identified», то есть «обезличенные». Суини вводит понятие quasi-identifier и формализует его. Quasi-identifier — это набор атрибутов, каждый из которых сам по себе не является однозначным идентификатором, но в совокупности они мог

В работе Латании Суини анализируется вопрос, можно ли считать набор данных анонимным, если из него удалены явные идентификаторы вроде имени и адреса, но остаются простые демографические поля: дата рождения, пол, место жительства.

Исходная мотивация связана с практикой публикации медицинских и административных данных в США. Больницы и органы власти регулярно передают исследователям и страховым компаниям выгрузки, где есть возраст или точная дата рождения пациента, пол, почтовый индекс (ZIP-код, функциональный аналог российского почтового индекса), расовая принадлежность, список госпитализаций, диагнозов и т. д. При этом имя, точный почтовый адрес, номер медицинского страхования и другие «явные» идентификаторы удаляются. Такие наборы официально назывались «de-identified», то есть «обезличенные».

Суини вводит понятие quasi-identifier и формализует его. Quasi-identifier — это набор атрибутов, каждый из которых сам по себе не является однозначным идентификатором, но в совокупности они могут однозначно выделять личность в достаточно большой популяции. В статье рассматривается тройка {дата рождения, пол, ZIP-код} и показывается, что для населения США она обладает именно таким свойством.

Для количественной оценки используется перепись населения США 1990 года, где доступны распределения по возрасту, полу и месту жительства. Автор моделирует, как часто в различных географических областях встречаются одинаковые комбинации «пол + дата рождения + ZIP-код». Результат даётся для всей страны: примерно 87 % жителей США имеют уникальную тройку {пол, полная дата рождения, 5-значный ZIP-код}. Это означает, что среди всех, кто живёт в том же ZIP-коде, родился в тот же день и того же пола, как правило, есть ровно один человек.

Далее рассматриваются более грубые варианты географического признака. Если вместо ZIP-кода использовать «place» — город или муниципалитет, — то около 53 % жителей остаются уникальными по комбинации {пол, дата рождения, place}. Если брать ещё более крупную единицу — округ (county), то уникальными оказываются около 18 % населения по комбинации {пол, дата рождения, county}.

Для сопоставления с российскими реалиями можно думать о ZIP-коде как о 5-значном индексе, place — как о городе или посёлке, а county — как о районе внутри штата; с точки зрения структуры населения это уровни «индекс - город - район».

Чтобы показать практическую значимость этих оценок, Суини рассматривает процедуру фактической реидентификации. В США открытыми являются списки зарегистрированных избирателей: это таблицы по каждому штату, где опубликованы ФИО, поштучный адрес проживания, дата рождения и пол. Такая таблица по своей структуре близка к тому, что в России можно было бы ожидать от полного списка избирателей участка или муниципалитета, но в американских условиях она доступна исследователям официально.

Если исследователь получает от госпиталя «обезличенный» набор, где есть дата рождения, пол и ZIP-код пациента плюс медицинская информация, он может сопоставить этот набор со списком избирателей по трём общим полям. Там, где комбинация {дата рождения, пол, ZIP} в списке избирателей уникальна, происходит однозначное совпадение: записи в медицинском наборе можно связать с конкретным именем, адресом и другими данными избирательного списка. В статье описан пример такого сопоставления для медицинских данных штата Массачусетс.

Отдельно обсуждается вопрос масштаба географических единиц. В выборке приводятся ZIP-коды с очень разной структурой населения. В студенческих районах и возле университетских кампусов концентрируются молодые взрослые, возрастное распределение там узкое, и это увеличивает долю уникальных комбинаций «дата рождения + пол + ZIP». В крупных городских ZIP-кодах с равномерным возрастным распределением, наоборот, одна и та же дата рождения чаще встречается у нескольких человек одного пола, что уменьшает уникальность, хотя абсолютное население в таких областях больше.