В работе Латании Суини анализируется вопрос, можно ли считать набор данных анонимным, если из него удалены явные идентификаторы вроде имени и адреса, но остаются простые демографические поля: дата рождения, пол, место жительства. Исходная мотивация связана с практикой публикации медицинских и административных данных в США. Больницы и органы власти регулярно передают исследователям и страховым компаниям выгрузки, где есть возраст или точная дата рождения пациента, пол, почтовый индекс (ZIP-код, функциональный аналог российского почтового индекса), расовая принадлежность, список госпитализаций, диагнозов и т. д. При этом имя, точный почтовый адрес, номер медицинского страхования и другие «явные» идентификаторы удаляются. Такие наборы официально назывались «de-identified», то есть «обезличенные». Суини вводит понятие quasi-identifier и формализует его. Quasi-identifier — это набор атрибутов, каждый из которых сам по себе не является однозначным идентификатором, но в совокупности они мог
В работе Латании Суини анализируется вопрос, можно ли считать набор данных анонимным, если из него удалены явные идентификаторы вроде имени
27 ноября 202527 ноя 2025
179
3 мин