Найти тему
Мир знаний

Алгоритмические основы дифференцированной конфиденциальности.

Проблема анализа данных, направленных на сохранение конфиденциальности, имеет продолжительную историю, которая включает множество дисциплин.

По мере того, как электронные данные о лицах становятся все более детализированными, а технологии позволяют собирать и хранить все более мощные данные, возрастает потребность в надежном, значимом и математически точном определении неприкосновенности частной жизни, а также в богатом на вычислениях классе алгоритмов.

Дифференциальная конфиденциальность - это такое определение.

После мотивации и обсуждения значения понятия дифференциальная конфиденциальность в данной монографии основное внимание уделяется фундаментальным техническим аспектам обеспечения такой конфиденциальности и применению этих технических приемов в творческих комбинациях, используя в качестве постоянного примера проблему вопрос-выпуск.

Ключевым моментом является то, что, переосмыслив вычислительную цель, часто можно получить гораздо лучшие результаты, чем можно было бы получить, если бы методично заменить каждый шаг не частных вычислений на диэрентрически частную реализацию.

Несмотря на некоторые удивительно мощные вычислительные результаты, все еще существуют фундаментальные ограничения - не только в том, что может быть достигнуто с помощью дифференциальной конфиденциальности, но и в том, что может быть достигнуто с помощью любого метода, который защищает от полного нарушения конфиденциальности. Определенные алгоритмы являются вычислительно - интенсивными, все остальные - достаточно сложными.

 https://pixabay.com/ru/illustrations/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0-%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8-%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8-3088958/
https://pixabay.com/ru/illustrations/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0-%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%B8-%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8-3088958/

Существует механизм Лапласа, обеспечивающий дифференциальную конфиденциальность при реальных оценочных запросах. Применение этого, естественно, приводит к экспоненциальному механизму, который является методом сугубо частного отбора из дискретного набора потенциальных выходов. Затем анализируются совокупные потери конфиденциальности, вызванные созданием нескольких механизмов сугубо частных компаний. Наконец, приводится метод редких векторов - для частных отчетов о результатах потенциально очень большого количества вычислений, при условии, что лишь немногие из них являются значительными.

  • Дифференциальная конфиденциальность означает обещание, данное держателем данных или куратором субъекту данных. Вы не будете подвержены негативному влиянию или воздействию извне, если позволите использовать ваши данные в любом исследовании или анализе, независимо от того, какие другие исследования, наборы данных или источники информации имеются в наличии.

В лучшем случае, механизмы сугубо частных баз данных могут сделать конфиденциальные данные широко доступными для точного анализа данных, не прибегая к использованию чистых помещений, соглашений об использовании данных, планов по защите данных или ограниченных представлений. Тем не менее, полезность данных будет в конечном счете использована.

  • Основной закон о восстановлении информации гласит, что слишком точные ответы на слишком много вопросов уничтожат конфиденциальность впечатляющим образом. Цель алгоритмических исследований дифференциальной конфиденциальности - отложить эту неизбежность как можно дольше.

Дифференциальная конфиденциальность решает парадокс: ничего не узнавать о человеке, получая при этом полезную информацию о населении. Медицинская база данных может научить нас тому, что курение вызывает рак, что отражает мнение страховой компании о долгосрочных медицинских расходах курильщика.

 https://pixabay.com/ru/illustrations/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0-seo-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-1907993/
https://pixabay.com/ru/illustrations/%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D1%82%D0%B8%D0%BA%D0%B0-seo-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-1907993/

Курильщику был нанесен ущерб в результате анализа?

Возможно - его страховые взносы могут возрасти, если страховщик узнает, что он курит. Ему также может быть оказана помощь - узнав о рисках для здоровья, он вступает в программу по отказу от курения.

Было ли нарушено право курильщика на частную жизнь?

Конечно, именно об этом человеке известно больше после исследования, чем было известно ранее, но была ли его информация утечка? Дифференциальная конфиденциальность будет учитывать, что это не так, исходя из того, что воздействие на курильщика одинаково независимо от того, участвовал ли он в исследовании или нет. Выводы исследования заключаются в том, что именно курильщик, а не его присутствие или отсутствие в наборе данных.

Предположим, что хотим знать, какое состояние является наиболее распространенным в истории болезни группы респондентов, поэтому для каждого рассматриваемого состояния существует ряд вопросов о том, получал ли пациент когда-либо диагноз этого заболевания. Поскольку люди могут испытывать множество состояний, чувствительность этого набора вопросов может быть высокой. Тем не менее, эту задачу можно решить с помощью добавления шума Lap к каждому из отсчетов. В кругосветном режиме шумовые графы сами по себе не будут освобождены.

Как в случае с наиболее распространенным названием, так и в случае с наиболее распространенным состоянием - проверяется полезность ответа, оценивали подсчеты с использованием шума Лапласа и сообщали о максимуме шума.

Экспоненциальный механизм был разработан для ситуаций, когда хочется выбрать наилучший ответ, но добавление шума непосредственно к вычисленному количеству может полностью уничтожить его ценность, например, установление цены на аукционе, целью которого является максимизация доходов, а добавление небольшого количества положительного шума к оптимальной цене может резко снизить получаемый доход.

Дифференциальная конфиденциальность гарантирует, что одни и те же выводы будут сделаны независимо от того, принимает ли какое-либо лицо решение или не принимает тот или иной набор данных. В частности, он гарантирует, что любая последовательность выходов существенно одинаково вероятна, независимо от присутствия или отсутствия каких-либо лиц. Здесь вероятности берут верх над случайным выбором, сделанным механизмом конфиденциальности.

Дифференциальная конфиденциальность - это определение, а не алгоритм. Некоторые будут иметь лучшую точность, чем другие.