Найти в Дзене

Влияние искусственного интеллекта на неприкосновенность частной жизни: обзор нарушений и способов защиты

Сочетание искусственного интеллекта (ИИ) и конфиденциальности данных сопряжено как со значительными трудностями, так и с новыми возможностями. По мере того как системы искусственного интеллекта все глубже проникают во многие сферы нашей жизни, включая здравоохранение, финансы и социальные сети, и вызывают серьезные опасения по поводу конфиденциальности данных, растет и потребность в эффективных механизмах ее защиты. В этом обзоре представлен систематический анализ 94 научных работ в области искусственного интеллекта и конфиденциальности. Чтобы смоделировать эту сложную проблему, мы классифицировали конфиденциальность в сфере искусственного интеллекта с помощью многомерного подхода, который включает в себя меры по обеспечению конфиденциальности в технологических областях, стратегии защиты конфиденциальности и направления взаимодействия искусственного интеллекта с конфиденциальностью. Для визуализации сложных взаимосвязей между рассматриваемыми объектами была использована новая технологи
Оглавление

Аннотация

Сочетание искусственного интеллекта (ИИ) и конфиденциальности данных сопряжено как со значительными трудностями, так и с новыми возможностями. По мере того как системы искусственного интеллекта все глубже проникают во многие сферы нашей жизни, включая здравоохранение, финансы и социальные сети, и вызывают серьезные опасения по поводу конфиденциальности данных, растет и потребность в эффективных механизмах ее защиты. В этом обзоре представлен систематический анализ 94 научных работ в области искусственного интеллекта и конфиденциальности. Чтобы смоделировать эту сложную проблему, мы классифицировали конфиденциальность в сфере искусственного интеллекта с помощью многомерного подхода, который включает в себя меры по обеспечению конфиденциальности в технологических областях, стратегии защиты конфиденциальности и направления взаимодействия искусственного интеллекта с конфиденциальностью. Для визуализации сложных взаимосвязей между рассматриваемыми объектами была использована новая технология на основе графовой базы данных (Neo4J), доступная читателям. Кроме того, граф, который по сути и является обзором, можно запрашивать и дополнять будущими публикациями. Основные выводы исследования показывают, что искусственный интеллект может быть как потенциальной угрозой конфиденциальности, например из-за рисков, связанных с логическими выводами и использованием данных, так и инструментом для повышения конфиденциальности с помощью таких методов, как федеративное обучение и дифференциальная конфиденциальность. В исследовании освещаются нормативные, этические и технические проблемы, подчеркивается необходимость междисциплинарного сотрудничества.

1 Введение

Конфиденциальность — это многогранное понятие, охватывающее личные, социальные и технологические аспекты (Маллиган и др., 2016). Обычно оно связано с правом человека контролировать информацию о себе и решать, как и в какой степени эта информация будет передаваться другим людям (Солоув, 2004). В эпоху цифровых технологий проблемы с конфиденциальностью возникают в основном из-за сбора, использования и распространения персональных данных различными организациями, включая правительства, корпорации и частных лиц. Эффективные меры по защите конфиденциальности должны обеспечивать хрупкий баланс между правами личности и технологическими преимуществами.

В западных странах неприкосновенность частной жизни воспринимается как одно из прав человека, поэтому во всем мире ужесточаются правила защиты персональных данных. Эти правила призваны предоставить людям больше контроля над их личной информацией и установить более строгие требования к организациям в отношении обработки данных (Greenleaf, 2019). Самый яркий пример — Общий регламент по защите данных (General Data Protection Regulation, GDPR) (Regulation (EU) 2016). GDPR - это регламент защиты данных и конфиденциальности, инициированный Европейским союзом (ЕС) и затрагивающий большинство коммерческих компаний, государственных учреждений и других секторов, которые обрабатывают личную информацию физических лиц. Этот регламент применяется в силу международного публичного права, таким образом, он оказывает глубокое значимое влияние на многие аспекты, связанные с обработкой личных данных.

В целом, а особенно в контексте данного обзора, важно дать четкое определение понятию «конфиденциальность» и обозначить его границы. В частности, мы хотели бы провести различие между понятиями «конфиденциальность» и «безопасность», которые часто путают. Под конфиденциальностью можно понимать право отдельных лиц, групп или организаций самостоятельно решать, когда, как и в какой степени информация о них будет передаваться другим лицам. Солоув (2005) расширил понятие конфиденциальности, включив в него не только права отдельных лиц, но и более широкие социальные последствия контроля над информацией. Конфиденциальность в технологическом контексте — это возможность контролировать сбор, использование и распространение персональных данных, особенно в цифровых системах, где информация может быстро передаваться, обрабатываться и храниться (Langheinrich, 2001). Хотя понятия конфиденциальности и безопасности тесно связаны, они не идентичны. Различать их важно, например, в ситуациях, когда приходится выбирать между этими двумя понятиями, или когда регулирующий орган устанавливает правила, касающиеся конфиденциальности, безопасности или того и другого. Такое разграничение может облегчить выбор подходящих средств защиты. Была предложена методология разграничения конфиденциальности и безопасности, основанная на четырех компонентах: индивидуальная цель, характер затрат, наличие компромисса и согласие (Хиршпрунг, 2023). Это различие важно и имеет отношение к данному обзору, поскольку в нем основное внимание уделяется конфиденциальности, а не безопасности.

Защита личных данных (и, в частности, данных частных пользователей) от взломов и нежелательного использования необходима для поддержания доверия к цифровым платформам. Для этого требуются надежные меры защиты и грамотно выстроенное управление данными. По этой причине в последние годы вопросы конфиденциальности были тщательно изучены. Например, изучение критической проблемы конфиденциальности в онлайн-социальных сетях (OSN) подчеркивает важность комплексного подхода к эффективному управлению конфиденциальностью в OSN (Волох и др., 2021). Еще один пример проблем с конфиденциальностью данных в эпоху цифровых технологий — неспособность традиционных правовых систем угнаться за стремительным развитием технологий, что приводит к неполной, а иногда и недостаточной защите конфиденциальности (DeVries, 2003). Исследователи предлагают различные решения для устранения проблем с конфиденциальностью, уделяя особое внимание повышению безопасности данных и усилению контроля пользователей над передаваемой информацией.

Один из подходов предполагает использование алгоритмов сохранения конфиденциальности, таких как дифференциальная конфиденциальность, которая добавляет к данным «шум», чтобы защитить персональные данные, но при этом позволяет проводить анализ агрегированных данных (Dwork, 2006). Другой подход основан на децентрализованных архитектурах социальных сетей с использованием технологии блокчейн для обеспечения безопасного, прозрачного и контролируемого пользователями управления данными (Zyskind et al., 2015).

С появлением социальных сетей и повсеместным использованием персональных данных в повседневной цифровой жизни вопрос конфиденциальности становится все более актуальным. Baruh et al. (2017) показали, что пользователи, которые беспокоятся о конфиденциальности, реже пользуются онлайн-сервисами и делятся информацией, но при этом чаще принимают меры по защите конфиденциальности. В последние годы эти опасения усиливаются из-за участившихся случаев кражи, манипулирования и других форм утечки данных. Эти инциденты, а также осведомленность пользователей о происходящем в сочетании с огромным количеством личных данных, доступных в цифровом пространстве, привели к росту обеспокоенности по поводу конфиденциальности. Этот вопрос доверия особенно актуален в контексте сочетания конфиденциальности и набирающего популярность искусственного интеллекта (ИИ), поскольку мы не всегда знаем, откуда берутся и на что способны различные механизмы ИИ и как они влияют на конфиденциальность данных в процессе их внедрения.

ИИ в настоящее время интегрирован во многие сектора, включая здравоохранение, финансы и образование, и затрагивает множество областей, включая образование, например, вспомогательные средства для учителей, которые включают обнаружение плагиата при выполнении заданий, автоматизированные оценки и помощь ИИ в обучении (Холмс и Туоми, 2022), финансы, например, методы нейронных вычислений, которые помогают обнаруживать ненормальное поведение на рынке, аномалии или мошенничества в корпоративных финансах, бухгалтерском учете, страховании и банковском бизнесе (Cao, 2022), и здравоохранение, например, для улучшения медицинской диагностики, ускорения раскрытия фармацевтических разработок и выполнения роботизированных операций (Шахин, 2021 ). Технология искусственного интеллекта позволяет не только автоматизировать задачи, но и совершенствовать процессы принятия решений на основе глубокого анализа данных. Это возможно благодаря тому, что ИИ способен интерпретировать задачи на основе входных данных и понимать, что нужно сделать. Кроме того, появляются новые возможности, основанные на синтетических данных, например большие языковые модели (БЯМ), которые используют синтетические данные для обучения и тонкой настройки, чтобы получать более точные результаты при взаимодействии с пользователем.

Искусственный интеллект — это обширная область компьютерных наук и других дисциплин, целью которой является создание систем, способных выполнять задачи, требующие человеческого интеллекта, такие как логическое мышление, обучение и понимание языка (Васвани, 2017). Машинное обучение (Machine Learning, ML), которое можно считать частью искусственного интеллекта, фокусируется на алгоритмах, позволяющих обучать программное обеспечение на основе каких-либо данных и совершенствовать его с течением времени без явного программирования. В то время как искусственный интеллект включает в себя множество подходов, в том числе системы, основанные на правилах и не способные к обучению, машинное обучение всегда предполагает обучение на основе данных для прогнозирования или принятия решений. Например, Джахар и Каур (2020) обсуждают использование искусственного интеллекта и машинного обучения в дерматологии, опираясь на эмпирические данные. В их исследовании также представлен обзор использования глубокого обучения (deep learning, DL) в искусственном интеллекте и подчеркивается, что дерматологам необходимо разбираться в этих технологиях, поскольку они приобретают все большее значение в дерматологической визуализации и диагностике.

Искусственный интеллект стал доступен широкой публике в основном благодаря большим языковым моделям, которые имитируют человеческое взаимодействие, используя знания, способности и ресурсы данных мощного компьютера. После публичного релиза больших языковых моделей их популярность резко возросла, что привело к появлению таких платформ, как ChatGPT от OpenAI, Llama от Meta и других. Эти платформы позволяют пользователям использовать естественный язык для описания задач и взаимодействия с помощью интерфейса, напоминающего дружеский чат, для решения задач разного уровня сложности.

ChatGPT — ведущая платформа, которой пользуется широкая общественность. Благодаря своим возможностям и простому в использовании интерфейсу она стала очень популярной в сфере больших языковых моделей. Как уже упоминалось выше, стремительная интеграция искусственного интеллекта в повседневную жизнь и во многие сферы также сопряжена с проблемами и рисками, что подчеркивает необходимость ответственного подхода к использованию ИИ. Такие вопросы, как конфиденциальность, управление данными, прозрачность и безопасность систем искусственного интеллекта, имеют первостепенное значение, поскольку мы стремимся снизить риски для всех заинтересованных сторон. Таким образом, к разработке и внедрению искусственного интеллекта необходимо подходить с осторожностью, чтобы он приносил пользу обществу, а потенциальный вред был сведен к минимуму или сбалансирован (Флориди и др., 2018).

Внедрение искусственного интеллекта в различные сферы деятельности вызывает серьезные опасения по поводу конфиденциальности, особенно в том, что касается сбора и обработки данных, а также их возможного неправомерного использования (Binns, 2018). По мере того как системы искусственного интеллекта становятся все более сложными, задача обеспечения конфиденциальности при использовании возможностей ИИ становится все более трудновыполнимой (Wachter et al., 2017). Вопросы конфиденциальности в сфере искусственного интеллекта затрагивают правовые, технологические и этические аспекты. С юридической точки зрения существуют опасения, что законы о защите данных не поспевают за развитием технологий искусственного интеллекта, что может привести к нарушению права на неприкосновенность частной жизни, поскольку системы искусственного интеллекта все чаще используют персональные данные для обучения и принятия решений (Шварц и Солоув, 2014). С технологической точки зрения моделям искусственного интеллекта часто требуются большие массивы данных, которые могут непреднамеренно раскрывать конфиденциальную информацию, что подчеркивает необходимость в надежных методах защиты конфиденциальности (Шокри и Шматиков, 2015). С этической точки зрения продолжаются споры о моральных последствиях способности искусственного интеллекта извлекать личную информацию из, казалось бы, безобидных данных, что поднимает вопросы о согласии и автономии в цифровом пространстве (Миттельштадт, 2019). Искусственный интеллект может восприниматься как способ приоткрыть завесу, скрывающую личные данные, не нарушая при этом действующего законодательства, что вызывает серьезную обеспокоенность.

Поскольку сфера искусственного интеллекта постоянно меняется, возникают и новые аспекты, связанные с вопросами конфиденциальности (Carmody et al., 2021). Поэтому важно понимать, как искусственный интеллект и конфиденциальность взаимодействуют в различных ситуациях. Как уже упоминалось выше, когда люди выражают обеспокоенность по поводу конфиденциальности в связи с технологиями искусственного интеллекта, они обычно имеют в виду вопросы безопасности, а не конфиденциальности (Elliott and Soifer, 2022). Таким образом, несмотря на тесную связь этих областей, их следует разделять, поскольку каждая из них сопряжена с уникальными проблемами.

Конфиденциальность и искусственный интеллект неразрывно связаны хотя бы потому, что для эффективной работы системы искусственного интеллекта часто используют огромные массивы персональных данных. Сбор, обработка и хранение этих данных вызывают опасения по поводу неприкосновенности частной жизни людей. Эти опасения связаны с тем, как используются, передаются и защищаются данные. Модели искусственного интеллекта, особенно в таких областях, как распознавание лиц, профилирование пользователей и предиктивная аналитика, могут создавать риски несанкционированного доступа к данным, их неправомерного использования и даже слежки. По мере развития искусственного интеллекта крайне важно находить баланс между инновациями и защитой конфиденциальности, чтобы сохранять доверие и соблюдать этические нормы при работе с данными.

В свете вышесказанного можно утверждать, что конфиденциальность и искусственный интеллект идут рука об руку. Учитывая необходимость соблюдения конфиденциальности как одного из прав человека и популярность искусственного интеллекта как крайне полезного инструмента, их взаимодействие имеет большое значение. В этой статье мы рассматриваем современные границы и общие направления исследований в области конфиденциальности и искусственного интеллекта. Мы отобрали научные работы из разных областей, в которых изучались взаимосвязи, влияние и противоречия между технологиями искусственного интеллекта и конфиденциальностью. Отобранные исследования были разделены на несколько категорий в зависимости от подхода авторов к вопросам конфиденциальности и искусственного интеллекта. Для этого обзора мы сначала определили классы, затем проанализировали 94 статьи и, наконец, создали базу данных, в основе которой лежат сложные взаимосвязи между классами и статьями.

Цели этого обзора: (а) составить карту областей, связанных с конфиденциальностью в сфере искусственного интеллекта, и оценить влияние проблем с конфиденциальностью в каждой из них; (б) определить спектр действий (наступательных и оборонительных), предпринимаемых в областях, связанных с конфиденциальностью в моделях и приложениях искусственного интеллекта; (в) рассмотреть и проанализировать различные подходы, такие как Privacy by Design, Privacy shell и т. д., применяемые в различных областях, связанных с конфиденциальностью в разных моделях искусственного интеллекта, таких как машинное обучение, интернет вещей (IoT), обработка естественного языка (NLP), и их приложениях; (г) составить карту этой области. Для представления данных в этом обзоре мы использовали технологию графовых баз данных (Graph Database, GDB), чтобы обеспечить удобную для восприятия форму представления, эффективный поиск по сложным взаимосвязям этих многогранных данных, а также возможность для читателей вносить изменения в будущем.

2 Методология

2.1 Общий подход

В этом обзоре для сбора и систематизации результатов был использован уникальный подход. Он основан на признании того, что данные по своей природе многомерны. Процесс показан на рисунке 1 и включает в себя четыре основных этапа:

  • Выборка. На первом этапе было отобрано несколько статей, в которых рассматриваются вопросы конфиденциальности и искусственного интеллекта. На основе этой выборки были сделаны общие выводы о различных аспектах, то есть о различных классификациях этих тем, их взаимосвязи, подходах к их изучению и т. д. Эта классификация была важна для следующих этапов процесса и является динамичной и модульной. По сути, она менялась и дополнялась по мере получения новых результатов на следующих этапах процесса. Этап выборки был первым этапом всего процесса.
  • Классификация. На втором этапе различные статьи были классифицированы по четырем параметрам: (i) технологическая область, в которой написана статья; (ii) меры по защите конфиденциальности, описанные в статье; (iii) подход к защите конфиденциальности, описанный в статье; (iv) направление взаимодействия ИИ и конфиденциальности, описанное в статье. Подробные пояснения и различные значения этих параметров приведены ниже.
  • Тщательный поиск, обзор и анализ. На этом этапе был проведен тщательный поиск статей на различных платформах, таких как Google Scholar, IEEE Xplore, Цифровая библиотека ACM, SpringerLink, PubMed и Scopus. Поиск осуществлялся по релевантным ключевым словам, соответствующим различным аспектам. Поиск включал в себя углубленное изучение статей и анализ их содержания с точки зрения конфиденциальности и искусственного интеллекта в соответствии с различными аспектами, описанными на втором этапе. Эти аспекты также динамически обновлялись по мере проведения анализа и были структурированы в соответствии с полученными результатами. Этот этап был основным в обзоре и предшествовал графической презентации.
  • Представление в виде графа. После завершения обзора и анализа статей был проведен заключительный этап — создание графовой базы данных (Graph Database, GDB), в которой были собраны все статьи и классификации (параметры). В качестве движка GDB был выбран Neo4J. Это программное обеспечение позволяет наглядно представить различные параметры и их значения со ссылками на рассмотренные статьи. Граф можно отображать в графическом виде, запрашивать и обновлять в дальнейшем.

Данная статья представляет собой обзорный анализ в сочетании с картографированием фактических данных, а не традиционный систематический обзор. Поскольку литература по искусственному интеллекту и конфиденциальности включает в себя концептуальные, методологические и эмпирические исследования, отличающиеся значительной неоднородностью, обзорный подход наиболее подходит для определения границ этой области, выявления ключевых тем и систематизации различных типов фактических данных. Компонент картографирования фактических данных реализован с помощью четырехмерной классификации (сфера применения, действие, подход, направление) и сопутствующей базы данных Neo4J, которая наглядно и аналитически представляет взаимосвязи между разнородными исследованиями. Таким образом, цель этого обзора — составить карту, классифицировать и обобщить имеющиеся данные, а не оценить величину эффекта или эмпирические результаты, как это потребовалось бы при проведении формального систематического обзора.

Литература по искусственному интеллекту и конфиденциальности по своей сути неоднородна и включает в себя как концептуальные/теоретические работы, так и эмпирические или экспериментальные исследования. Поскольку цель этой работы — составить представление о масштабах исследований на стыке искусственного интеллекта и конфиденциальности, а не обобщить данные об эффективности тех или иных мер, мы намеренно включили в обзор оба типа доказательств. Концептуальные исследования содержат важные определения, концепции и нормативные анализы, которые формируют представления о конфиденциальности в контексте искусственного интеллекта, а эмпирические исследования дают конкретные оценки атак на конфиденциальность, способов защиты, поведения пользователей и производительности систем. Четырёхмерная модель классификации была специально разработана с учётом этого разнообразия, чтобы не загонять литературу в рамки единой методологии.

Поскольку литература по вопросам искусственного интеллекта и конфиденциальности включает в себя как концептуальный анализ, так и эмпирические исследования, в обзор намеренно включены оба типа работ. Концептуальные исследования дают основу для определений и теоретических концепций, а эмпирические исследования предоставляют конкретные данные об атаках, способах защиты и технических аспектах.

2.2 Поиск статей

Следующим шагом после разработки общей методологической основы, описанной выше, стал структурированный поиск в выбранных научных базах данных.

Для выявления релевантных научных работ была разработана стратегия глубокого поиска, направленная на обнаружение исследований, посвященных взаимосвязи конфиденциальности и искусственного интеллекта, с особым акцентом на технологические области, указанные в системе классификации, представленной в следующем подразделе. Поиск проводился в нескольких крупных научных базах данных, включая Google Scholar, IEEE Xplore, Цифровую библиотеку ACM, SpringerLink, PubMed и Scopus, чтобы охватить как можно больше источников. Поисковые запросы были тщательно сформулированы с учетом конкретных проблем, связанных с конфиденциальностью, решений и методологий, применяемых в различных областях искусственного интеллекта. Например, в отношении больших языковых моделей использовались такие термины, как «конфиденциальность в больших языковых моделях» и «конфиденциальность GPT». Аналогичным образом были составлены запросы для других доменов, таких как “конфиденциальность в компьютерном зрении” и “Конфиденциальность искусственного интеллекта в устройствах Интернета вещей”. Цель состояла в том, чтобы уловить нюансы этих пересечений, как в таких запросах, как ”НЛП и проблемы конфиденциальности" или “Онлайн-социальные сети и уязвимости конфиденциальности”. Это позволило нам отобразить обширный ландшафт исследований конфиденциальности в области искусственного интеллекта в таких областях, как компьютерное зрение, распознавание речи, Интернет вещей, онлайн-социальные сети (OSN) и базы данных.

Стратегия поиска постоянно корректировалась по мере того, как в ходе отбора выявлялись аспекты и ценности, соответствующие системе классификации. В подборку были включены статьи, в которых прямо затрагивались вопросы конфиденциальности в этих технологических областях, а статьи, посвященные исключительно достижениям в области искусственного интеллекта без учета вопросов конфиденциальности или общим вопросам конфиденциальности, не связанным с ИИ, были исключены. После поиска статей мы тщательно изучили их названия, аннотации и ключевые слова, чтобы убедиться, что каждая статья соответствует целям и аспектам исследования. Этот тщательный процесс позволил нам собрать обширный и репрезентативный набор научных статей, который послужил основой для анализа. Благодаря итеративному уточнению поисковых запросов и проверке результатов мы смогли провести всесторонний обзор, охватывающий различные аспекты взаимодействия конфиденциальности и искусственного интеллекта в различных областях.

2.2.1 Рекомендации

Для классификации соответствующих статей был сформулирован ряд исследовательских вопросов:

  • В каких областях применения ИИ существуют проблемы с конфиденциальностью?
  • Каковы распространенные проблемы с конфиденциальностью в каждой из областей применения ИИ?
  • Какие конкретные нарушения конфиденциальности происходят в различных областях применения ИИ, в разных моделях и приложениях?
  • Какие стратегии и методы защиты конфиденциальности используются в различных областях применения ИИ, в моделях и приложениях?

Для каждого из этих исследовательских вопросов может быть несколько вариантов ответа, а также несколько вариантов ответа по четырем различным параметрам, описанным ниже, для каждой рассмотренной статьи.

2.2.2 Параметры поиска и детали отбора

Для повышения методологической прозрачности мы предоставляем дополнительные параметры процесса поиска. Поиск литературы охватывал публикации за период с 2000 по 2025 год. Этот период был выбран для того, чтобы отразить появление современных методов машинного обучения, глубокого обучения и крупномасштабных систем искусственного интеллекта, которые играют ключевую роль в решении современных проблем, связанных с конфиденциальностью. В подборку вошли только статьи, написанные на английском языке, поскольку английский является основным языком научных публикаций в области искусственного интеллекта и исследований в сфере конфиденциальности. Отбор проводился в два этапа: сначала была проведена автоматическая фильтрация по ключевым словам и релевантности, а затем полный текст был изучен вручную. Несмотря на то, что работа над обзором была разделена между авторами, в связи с исследовательским характером этого проекта и его картографическим уклоном все решения по кодированию и классификации неоднократно пересматривались всеми авторами для обеспечения внутренней согласованности. Обзор был завершен 15 мая 2025 года, и эта дата стала конечной для всех запросов к базе данных. Все поисковые запросы выполнялись с использованием явных логических выражений и специализированных вариантов запросов (например, для больших языковых моделей, интернета вещей, открытых сетевых систем, компьютерного зрения), что обеспечивало единообразие результатов в Google Scholar, IEEE Xplore, цифровой библиотеке ACM, SpringerLink, PubMed и Scopus. Ограничение по времени гарантирует, что обзор отражает весь объем литературы, доступный на указанную дату, и обеспечивает полную воспроизводимость стратегии поиска.

В корпус намеренно включены как концептуальные исследования (например, теоретический анализ, концептуальные основы, нормативные интерпретации и методологии обеспечения конфиденциальности по умолчанию), так и эмпирические исследования (например, эксперименты, оценка моделей, демонстрация атак и оценка эффективности методов сохранения конфиденциальности). Такой подход, предполагающий использование различных источников данных, соответствует целям обзорного исследования и картирования фактических данных, которые направлены на обобщение разнородных форм знаний, а не на ограничение анализа рамками одной методологической традиции. Четырехмерная классификационная модель была разработана специально для того, чтобы систематизировать и упорядочить исследования такого разного типа. Все представленные статьи, как концептуальные, так и эмпирические, должны были иметь непосредственное отношение к взаимодействию искусственного интеллекта и конфиденциальности, а также содержать достаточно подробностей для классификации по четырем направлениям.

Для большей наглядности процесса поиска ниже приведены точный синтаксис поиска, временной диапазон, количество проверок и структурированные критерии включения/исключения.

Поисковые запросы были адаптированы для каждой базы данных, но в их основе лежала единая логическая структура, объединяющая термины, связанные с искусственным интеллектом, и понятия, касающиеся конфиденциальности. Основной шаблон выглядел так:

  • («Искусственный интеллект» ИЛИ «Машинное обучение» ИЛИ «Глубокое обучение» ИЛИ «Большая языковая модель» ИЛИ НЛП ИЛИ «Компьютерное зрение» ИЛИ «Распознавание речи» ИЛИ Интернет вещей ИЛИ «Социальные сети»)
  • И
  • (конфиденциальность ИЛИ «защита данных» ИЛИ «сохранение конфиденциальности» ИЛИ «атака на конфиденциальность» ИЛИ «нарушение конфиденциальности» ИЛИ «конфиденциальность по умолчанию» ИЛИ «оболочка конфиденциальности» ИЛИ «PPDM»).

Ниже приведены примеры запросов, относящихся к конкретной предметной области:

  • LLM: (“Большая языковая модель” ИЛИ “GPT” ИЛИ “ChatGPT”) И (конфиденциальность ИЛИ “утечка данных”)
  • Компьютерное зрение: (“компьютерное зрение” И (конфиденциальность ИЛИ “повторная идентификация” ИЛИ “конфиденциальность при распознавании лиц”))
  • Интернет вещей: (Интернет вещей И (конфиденциальность ИЛИ “конфиденциальность на периферии”))
  • Социальные сети: (“социальные сети” И (конфиденциальность ИЛИ “профилирование” ИЛИ “неправомерное использование пользовательских данных”))

Эти запросы были отправлены в Google Scholar, IEEE Xplore, ACM DL, SpringerLink, PubMed и Scopus.

Критерии включения требовали, чтобы исследование: (1) явно рассматривало пересечение искусственного интеллекта и конфиденциальности; (2) включало по крайней мере одну технологическую область из четырехмерной структуры (например, машинное обучение, большие языковые модели, обработка естественного языка, компьютерное зрение, распознавание речи, Интернет вещей, онлайн-социальные сети или базы данных, сохраняющие конфиденциальность); (3) описывало конкретные действия по обеспечению конфиденциальности, такие как атаки, средства защиты, уязвимости или механизмы регулирования; (4) предоставляло достаточные методологические или концептуальные детали для поддержки кодирования в модель "Домен-действие-подход-направление"; и (5) было академической публикацией на английском языке ( рецензируемая статья, документ конференции или авторитетный препринт).

Исследования не учитывались, если они соответствовали одному или нескольким из следующих критериев: (1) рассматривали технологии искусственного интеллекта без учета вопросов конфиденциальности; (2) обсуждали вопросы конфиденциальности, не связанные с искусственным интеллектом; (3) содержали исключительно этические или юридические комментарии без технического содержания; (4) были основаны на неакадемических источниках, таких как блоги, новостные статьи или аналитические обзоры; (5) не содержали методологических подробностей, необходимых для надежной классификации; (6) были написаны не на английском языке.

Чтобы убедиться, что все включенные в обзор статьи непосредственно затрагивают тему взаимодействия искусственного интеллекта (ИИ) и конфиденциальности, мы в дополнение к стандартным критериям включения/исключения применили структурированный протокол проверки релевантности. Каждая статья должна была (а) затрагивать хотя бы одну из технологических областей ИИ (например, машинное обучение, большие языковые модели, обработку естественного языка, компьютерное зрение, интернет вещей, социальные сети) и (б) содержать конкретный компонент, связанный с конфиденциальностью, например описание нарушения конфиденциальности, механизма защиты, нормативных последствий или стратегии сохранения конфиденциальности. Статьи, в которых ИИ упоминался лишь вскользь или в чисто абстрактном или юридическом контексте, без привязки к технологиям искусственного интеллекта, были исключены на этапе проверки заголовков и аннотаций или полнотекстового анализа. Этот шаг позволил убедиться, что во всех отобранных исследованиях тема взаимодействия ИИ и конфиденциальности рассматривается содержательно и с технической точки зрения.

Несмотря на то, что в обзоре не используется формальный инструмент количественной оценки качества из-за концептуальной и методологической неоднородности литературы, мы провели базовую качественную оценку для повышения внутренней достоверности. При полнотекстовом отборе каждая статья оценивалась по следующим критериям: (1) ясность исследовательского вопроса или цели; (2) прозрачность данных, методов или концептуальной основы; (3) четкость определения понятия «конфиденциальность» (например, тип нарушения, механизм защиты, модель риска); (4) адекватность компонента искусственного интеллекта (например, реальные модели, модели, полученные на основе логических выводов, проверенные алгоритмы или концептуальный анализ, основанный на методах искусственного интеллекта); (5) методологическая согласованность с целями статьи. Статьи, не соответствующие этим минимальным критериям, были отклонены. Эти этапы проверки качества в сочетании с перекрестной проверкой, проведенной обоими авторами, повысили внутреннюю валидность итогового материала и обеспечили точность итогового обобщения, отражающего реальные взаимосвязи между технологиями искусственного интеллекта и вопросами конфиденциальности.

2.3 Классификация

После того как мы определили полный набор подходящих исследований, мы систематизировали их с помощью структурированной четырехмерной системы классификации, чтобы обеспечить возможность систематического сравнения и сопоставления фактических данных.

Как уже упоминалось выше, в этом исследовании границы и общие черты искусственного интеллекта и конфиденциальности рассматривались с уникальной точки зрения, учитывающей четыре различных аспекта. Эти аспекты, определяющие таксономию статей, и их значимость заключаются в следующем:

2.3.1 Область применения

Под областью применения в научной работе понимается конкретная сфера или область технологий, которой посвящено исследование, включая соответствующие методы, инструменты, приложения и инновации, лежащие в основе исследования.

Он определяет контекст, в рамках которого анализируется или разрабатывается технологический вклад или достижения. Значения, которые были определены для этого измерения, следующие: LLM, ML, NLP, компьютерное зрение, распознавание речи, IoT, OSNS и базы данных (DB).

2.3.2 Действия

Действия по обеспечению конфиденциальности, описанные в документе, относятся к конкретным мерам, методам или стратегиям, предложенным или проанализированным для защиты конфиденциальности данных, снижения рисков, связанных с конфиденциальностью, или решения проблем, связанных с конфиденциальностью, в контексте кибербезопасности. Эти действия включают в себя практические реализации или теоретические подходы, направленные на усиление защиты конфиденциальности.

К ценностям, выявленным в рамках этого аспекта, относятся: атаки, защита, осведомленность, уязвимости, угрозы и нормативно-правовое регулирование.

2.3.3 Подход

Описанный в статье подход к обеспечению конфиденциальности относится к общей методологии, структуре или концептуальной стратегии, применяемой для решения проблем, связанных с конфиденциальностью, анализа вопросов конфиденциальности или разработки решений, повышающих уровень конфиденциальности в контексте кибербезопасности. Этот подход определяет руководящие принципы или теоретическую основу, лежащую в основе исследования. Для этого параметра были определены следующие значения: Privacy by Design (PbD), Privacy Shell, гибридный подход (PbD + Privacy Shell), рекомендательный подход и интеллектуальный анализ данных с сохранением конфиденциальности (Privacy Preserving Data Mining, PPDM).

2.3.4 Направление

Направление исследования взаимосвязи между искусственным интеллектом и конфиденциальностью, описанное в статье, указывает на то, каким образом в рамках исследования изучается, анализируется или рассматривается пересечение этих двух сфер, включая последствия, проблемы и возможности, возникающие в результате их взаимодействия. Это направление подчеркивает важность изучения взаимосвязи между достижениями в области искусственного интеллекта и вопросами конфиденциальности.

Для этого аспекта были определены следующие ценности: использование ИИ для защиты конфиденциальности, ИИ как угроза конфиденциальности, использование ИИ с учетом конфиденциальности и применение конфиденциальности в отношении ИИ.

2.3.5 Домен

LLM — это продвинутые системы искусственного интеллекта, обученные на обширных текстовых массивах для понимания и генерации текстов, похожих на написанные человеком. Они широко используются для решения таких задач, как создание контента, языковой перевод и помощь в написании кода. Например, GPT-4 от OpenAI может отвечать на сложные вопросы, генерировать эссе и даже помогать в отладке кода, демонстрируя свою универсальность в различных областях.

Машинное обучение позволяет компьютерам выявлять закономерности и принимать решения и делать прогнозы на основе данных. Оно лежит в основе многих приложений с искусственным интеллектом — от рекомендательных систем до систем обнаружения мошенничества. Например, алгоритм машинного обучения может анализировать историю покупок клиентов, чтобы предлагать персонализированные рекомендации по продуктам на платформах электронной коммерции.

Обработка естественного языка — это взаимодействие компьютеров с человеческим языком, которое позволяет решать такие задачи, как перевод, обобщение текста и анализ тональности. Яркий пример — система анализа отзывов клиентов, которая определяет, являются ли отзывы положительными или отрицательными, что помогает компаниям лучше понимать уровень удовлетворенности клиентов.

Компьютерное зрение позволяет машинам интерпретировать и обрабатывать визуальную информацию, которую обычно фиксируют камеры. Эта технология используется в таких приложениях, как распознавание лиц, беспилотные автомобили и медицинские системы визуализации. Например, беспилотный автомобиль использует компьютерное зрение для обнаружения и классификации объектов на дороге, таких как пешеходы, транспортные средства и дорожные знаки.

Распознавание речи — это преобразование устной речи в письменный текст с помощью таких технологий, как голосовые помощники, сервисы расшифровки и устройства с голосовым управлением. Например, с помощью виртуальных помощников, таких как Siri или Alexa, можно выполнять такие задачи, как установка напоминаний или воспроизведение музыки по голосовым командам.

Интернет вещей — это взаимосвязанная сеть устройств, которые обмениваются данными. К таким устройствам относятся системы «умного дома», носимые медицинские трекеры и промышленные датчики. Например, «умный» термостат может учитывать предпочтения пользователя и автоматически регулировать температуру в доме, чтобы обеспечить комфорт и энергоэффективность.

Социальные сети — это платформы, на которых люди взаимодействуют, делятся контентом и создают сообщества. Они используются для личных связей, продвижения брендов и анализа данных. Например, компании анализируют тренды и мнения клиентов в Twitter, чтобы совершенствовать свои маркетинговые стратегии и взаимодействовать с аудиторией.

Базы данных — это системы для систематического хранения данных и управления ими, которые используются в таких приложениях, как банковские системы, платформы электронной коммерции и системы управления запасами. Например, интернет-магазин использует базу данных для хранения сведений о товарах, информации о клиентах и записей о транзакциях, чтобы обеспечить бесперебойную работу и персонализированный подход к пользователям.

2.3.6 Действие

Атаки - — это преднамеренные действия, направленные на получение доступа к конфиденциальной информации отдельных лиц или организаций. Такие атаки используют уязвимости в системах или в поведении людей. Например, фишинговая атака вынуждает пользователей раскрыть конфиденциальную информацию, такую как учетные данные для входа в систему или данные кредитной карты, выдавая себя за легитимный сайт.

Средства защиты — это меры по обеспечению безопасности данных и предотвращению несанкционированного доступа к информации. К ним относятся шифрование, контроль доступа и регулярные обновления системы безопасности. Например, сквозное шифрование в мессенджерах, таких как WhatsApp, гарантирует, что сообщения смогут прочитать только отправитель и получатель, что обеспечивает конфиденциальность и защищает от возможного прослушивания.

Информирование — это информирование отдельных лиц и организаций о важности защиты конфиденциальных данных и распознавания потенциальных угроз. Например, в рамках Месяца осведомленности о кибербезопасности пользователей учат создавать надежные пароли, избегать подозрительных ссылок и распознавать попытки фишинга, чтобы снизить риски для конфиденциальности.

Уязвимости — это слабые места в системах, приложениях или действиях людей, которые могут быть использованы для нарушения конфиденциальности. Например, в устаревшем программном обеспечении без обновлений безопасности могут быть уязвимости, которыми могут воспользоваться хакеры, чтобы получить несанкционированный доступ к личным или корпоративным данным.

Угрозы — это потенциальные риски, связанные с конфиденциальностью, целостностью или доступностью данных. Угрозы могут исходить от киберпреступников, инсайдеров или даже от устройств с низким уровнем защиты. Например, использование незащищенного общедоступного Wi-Fi может представлять угрозу, поскольку злоумышленники могут перехватить конфиденциальные данные, передаваемые по сети.

Нормативные акты — это обязательные к исполнению законы и руководящие принципы, направленные на защиту персональных данных и соблюдение этических норм. Например, Общий регламент по защите данных (General Data Protection Regulation, GDPR) в Европейском союзе предусматривает строгий контроль за тем, как организации обрабатывают пользовательские данные, и предоставляет физическим лицам право на доступ к данным и их удаление.

2.3.7 Подход

Privacy by Design (PbD) — это подход, при котором защита конфиденциальности закладывается непосредственно в разработку систем и процессов и применяется на всех этапах, начиная с проектирования. Он направлен на принятие упреждающих мер, минимизацию сбора данных и обеспечение их безопасной обработки на протяжении всего жизненного цикла. Например, приложение для отслеживания физической активности, созданное с учетом принципов PbD, может собирать только необходимые данные, такие как количество пройденных шагов и сожженных калорий, не запрашивая конфиденциальную информацию, например точное местоположение по GPS, если пользователь не дал на это явное согласие.

Конфиденциальность — это концептуальная основа или уровень, который повышает уровень защиты конфиденциальности, выступая посредником между пользователем и системой. Он использует такие меры, как анонимизация, контроль доступа и соблюдение политик. Например, платформа для онлайн-опросов может использовать уровень конфиденциальности для анонимизации ответов перед их сохранением, чтобы даже в случае утечки данных невозможно было идентифицировать отдельных участников.

Гибридный подход — сочетание принципов PbD с дополнительной защитой с помощью оболочки конфиденциальности для создания надежной стратегии обеспечения конфиденциальности. Такой подход гарантирует, что конфиденциальность будет интегрирована в систему с самого начала, при этом динамически применяя дополнительные уровни безопасности. Например, система здравоохранения, использующая гибридный подход, может ограничить сбор данных только необходимой информацией о пациенте (PbD), при этом зашифровав данные и предоставив доступ только уполномоченному персоналу с помощью оболочки конфиденциальности.

Консультативный подход - предполагает предоставление рекомендаций пользователям и организациям по наилучшим методам обеспечения конфиденциальности, требованиям соответствия и реализации политики. Этот подход направлен на повышение осведомленности о стандартах конфиденциальности и их соблюдения. Например, корпоративная консультационная служба может провести аудит практики обработки данных компании и предложить обновления для соответствия таким нормативным актам, как GDPR, например, путем внедрения журналов доступа или пересмотра политики конфиденциальности.

Интеллектуальный анализ данных с сохранением конфиденциальности — это процесс извлечения значимой информации из данных при сохранении конфиденциальности отдельных лиц. Обычно используются такие методы, как анонимизация, дифференциальная конфиденциальность и безопасные вычисления. Например, медицинский набор данных, содержащий конфиденциальную информацию о пациентах, которая публикуется в исследовательских целях, может быть анонимизирован с помощью метода k-анонимности.

2.3.8 Направление

Использование искусственного интеллекта для защиты конфиденциальности. ИИ может стать мощным инструментом для повышения уровня конфиденциальности за счет автоматизации защиты данных и обеспечения соблюдения законодательства о защите персональных данных. Например, алгоритмы на основе ИИ могут в режиме реального времени обнаруживать потенциальные утечки данных, анализируя необычные закономерности активности, оповещать об этом администраторов и принимать незамедлительные меры для защиты конфиденциальной информации. Кроме того, инструменты на основе ИИ могут анонимизировать данные перед их передачей для исследований или бизнес-анализа, чтобы обеспечить соблюдение таких нормативных актов, как Общий регламент по защите данных.

ИИ как угроза конфиденциальности - Несмотря на множество преимуществ, ИИ также представляет серьезную угрозу конфиденциальности. Системы искусственного интеллекта могут собирать и обрабатывать огромные объемы персональных данных, зачастую без явного согласия пользователей. Например, технология распознавания лиц, используемая в общественных местах, может отслеживать перемещения и идентифицировать людей, что вызывает опасения по поводу слежки и возможного неправомерного использования персональных данных. Аналогичным образом алгоритмы искусственного интеллекта, используемые для таргетированной рекламы, могут извлекать конфиденциальную информацию о пользователях на основе их поведения в интернете, иногда раскрывая больше, чем они готовы были бы раскрыть.

Использование искусственного интеллекта с соблюдением конфиденциальности - Системы искусственного интеллекта могут быть разработаны с использованием методов сохранения конфиденциальности, что гарантирует их соответствие этическим стандартам. Например, чат-бот с искусственным интеллектом, используемый в медицинских учреждениях, может быть запрограммирован на шифрование переписки и удаление конфиденциальной информации после завершения сеанса, тем самым обеспечивая защиту персональных данных пациентов. Такие меры позволяют искусственному интеллекту работать эффективно, сохраняя доверие пользователей и соблюдая законы о конфиденциальности.

Обеспечение конфиденциальности при использовании ИИ. Применение принципов конфиденциальности при использовании ИИ предполагает разработку и внедрение систем, в которых безопасность данных является приоритетом, а риски, связанные с информацией о пользователях, сведены к минимуму. Это может включать в себя такие меры, как дифференциальная конфиденциальность, которая гарантирует, что результаты анализа данных не раскрывают информацию об отдельных пользователях. Например, модель ИИ, обученная на данных пользователей для улучшения рекомендательной системы, может использовать дифференциальную конфиденциальность, чтобы гарантировать, что данные ни одного пользователя не будут восстановлены или раскрыты даже в случае утечки.

2.4 Обоснование и разработка четырехмерной модели классификации

Четырехмерная модель (домен-действие-подход-направление) была разработана для того, чтобы учесть многоаспектный характер взаимодействия ИИ с конфиденциальными данными. Эти аспекты были выбраны после этапа исследовательской выборки, в ходе которого в различных исследованиях неоднократно выявлялись схожие закономерности. По сути, каждый аспект представляет собой отдельный уровень анализа.

  • Домен отражает технологический контекст, в котором возникают проблемы с конфиденциальностью,
  • Действие отражает тип действий, связанных с конфиденциальностью (например, атака, защита, регулирование),
  • Подход описывает концептуальную основу, используемую для обеспечения конфиденциальности, и
  • Направление отражает позицию, которую исследование занимает в отношении ИИ и конфиденциальности (например, бенефициар, угроза, нейтральный механизм).

В совокупности эти аспекты представляют собой структурированную схему для сравнения принципиально разных типов исследований, не загоняя их в рамки единой оценочной системы. Таким образом, их разделение является намеренным: проблемы конфиденциальности, стратегии обеспечения конфиденциальности, концептуальные подходы и динамика взаимоотношений между ИИ и конфиденциальностью действуют на разных аналитических уровнях, и их объединение скорее запутает, чем прояснит ситуацию.

2.5 Взаимосвязи между измерениями

Несмотря на аналитическую обособленность, измерения часто пересекаются в научной литературе. Например, исследования в области машинного обучения или больших языковых моделей часто объединяют атаки (действие) с интеллектуальным анализом данных с сохранением конфиденциальности (подход) и рассматривают ИИ как угрозу и как инструмент защиты (направление). В исследованиях, посвященных интернету вещей, уязвимости часто связываются с нормативными актами и подходами, основанными на принципе конфиденциальности по умолчанию. База данных в виде графа позволяет выявить эти межмерные пересечения, благодаря чему становятся видны группы статей, в которых встречаются определенные пары измерений. Этот комплексный подход еще раз подтверждает целесообразность многомерной, а не одномерной таксономии.

2.6 Протокол кодирования и обеспечение единообразия

Чтобы обеспечить методологическую строгость, мы внедрили структурированную процедуру кодирования. После предварительного изучения оба автора независимо друг от друга закодировали часть статей, используя четырехмерную схему. Разногласия обсуждались и разрешались, что привело к уточнению определений для каждого измерения и выработке более четких операционных критериев. Эти уточненные определения затем последовательно применялись ко всему набору данных. Несмотря на то, что формальная статистика согласованности оценок не рассчитывалась из-за концептуальной неоднородности публикаций, все решения о кодировании проверялись обоими авторами, чтобы обеспечить единообразие и снизить субъективную предвзятость. Публичный доступ к графу Neo4J обеспечивает прозрачность, позволяя сторонним читателям проверить, как была классифицирована каждая статья, и выявить возможные несоответствия.

2.7 Представление графа

Многомерная модель хорошо описывает данные, которые классифицируются по нескольким факторам. Тем не менее она усложняет понимание всех этих факторов. Поскольку единственная цель обзорной статьи — предоставить информацию читателям, а доступ к этой информации может осуществляться с разных точек зрения (с практической точки зрения — в разных измерениях), вышеупомянутая проблема приобретает особую актуальность. Для решения этой проблемы был выбран подход с использованием математических графиков. Математический граф — это структура, состоящая из набора вершин (также называемых узлами или точками) и набора рёбер (также называемых связями или линиями), соединяющих пары вершин (Гамильтон и др., 2017). Эти рёбра могут быть неориентированными, что указывает на двунаправленную связь, или ориентированными, что означает одностороннюю связь. Например, граф, отображающий дружеские отношения между пользователями Facebook, является неориентированным, потому что если А является другом Б, то Б обязательно является другом А, и наоборот, а направление связи не имеет значения. С другой стороны, граф, отображающий дорожную карту, является ориентированным, потому что если движение разрешено от точки А к точке Б, то это не значит, что движение разрешено от точки Б к точке А, и, следовательно, направление имеет значение. Эта структура позволяет использовать графы для моделирования различных систем, в которых объекты связаны между собой, например социальных, компьютерных или биологических сетей. В то время как реляционные базы данных (РБД) лучше подходят для хранения накопленных данных, графовая структура обеспечивает удобный и эффективный поиск сложных взаимосвязей и, таким образом, лучше всего подходит для представления научных работ в различных аспектах.

Для реализации графовой базы данных была выбрана система управления базами данных Neo4J (Neo4J, 2024). Neo4J — это система управления графовыми базами данных (СУГБД), предназначенная для эффективного хранения, запроса и анализа взаимосвязей между данными. В отличие от традиционных реляционных баз данных, Neo4j представляет данные в виде графа, то есть узлов и связей, как описано выше. Neo4J — это СУГБД с направленными связями, то есть каждая связь имеет направление, как описано выше. Направление не всегда необходимо, и хотя Neo4J требует указывать направление для каждого отношения при запросе к базе данных, это направление можно игнорировать. В данном исследовании, поскольку отношение было определено как BELONGS_TO (Neo4J представляет данные в виде правил, аналогичных грамматике естественного языка), направление указано. Neo4J — это графовая база данных с маркированными свойствами, то есть у каждого узла может быть метка, а у каждого отношения — своя метка. Метка определяет тип узла или отношения. Кроме того, каждый узел или отношение могут иметь свойства, например, для описания фильмов и отношений актеров узлы могут иметь метки: актер и фильм; узел актера может иметь свойства: имя, пол и год рождения; в то время как узел фильма может иметь свойства: фильм_название, и год; отношения могут быть помечены как act_in (между узлами актер и фильм) и familiar_with (между двумя актерами). Отношение familiar_with может включать свойство since.

В текущем исследовательском графе есть четыре типа узлов: один тип для узла с научной статьей и по одному типу для каждого измерения. Связь между узлом с научной статьей и измерением означает, что статья относится к этому измерению (классификация). Каждый узел с научной статьей содержит такие данные, как название, авторы, год публикации, платформа публикации и DOI/URL. В таблице 1 описаны различные узлы, их возможные связи и представление.

Сначала необработанные данные, включающие информацию о статьях, их классификацию и связи между ними, были загружены в файлы CSV. Затем файлы CSV были загружены в среду Neo4J для формирования графовой базы данных. Все CSV-файлы вместе с необходимыми операционными командами на языке Neo4J Cypher, которые использовались для создания графа, доступны в (Волох, 2024) и проиндексированы с помощью DOI: https://doi.org/10.5281/zenodo.17584342, чтобы обеспечить сохранность данных и дать возможность пользователям запрашивать и обновлять базу данных. Упрощенный и неполный пример такой визуализации графа представлен на рисунке 3. В этом примере представлены три статьи, связанные с конкретными значениями их параметров. Синими кружками обозначены статьи, красными — различные действия, желтыми — технологические области, зелеными — направления в области конфиденциальности и искусственного интеллекта, а коричневыми — различные подходы. Из примера видно, что область открытых сетевых технологий (OSN, желтая) упоминается только в одной статье, но все остальные области представлены во всех трех статьях. Что касается красных кружков (действий), то осведомленность упоминается только в одной статье, защита — в двух, а все остальные действия — во всех трех статьях. На рисунке 3 представлен упрощенный пример структуры графа Neo4J, использованной в этом обзоре. На рисунке показано, как статьи связаны с присвоенными им значениями «Область», «Действие», «Подход» и «Направление», что помогает читателю понять структуру более крупной карты доказательств.

2.8 Отчет по стандарту PRISMA

Процесс обзора был структурирован в соответствии с рекомендациями PRISMA 2020 по прозрачному представлению результатов систематических обзоров. Общий рабочий процесс, включающий поиск, скрининг, оценку соответствия критериям и включение в обзор, представлен на схеме PRISMA. На рисунке 4 показан процесс поиска, скрининга и включения в обзор, использованный в исследовании. Схема наглядно сопоставляет описательную часть с рекомендациями PRISMA 2020, разъясняя, как был сформирован окончательный набор из 94 исследований.

На этапе идентификации были извлечены записи из нескольких научных баз данных (Google Scholar, IEEE Xplore, Цифровая библиотека ACM, SpringerLink, PubMed и Scopus) с использованием комбинаций ключевых слов, связанных с искусственным интеллектом и конфиденциальностью, применительно к технологическим областям, определенным в нашей системе классификации (например, большие языковые модели, машинное обучение, обработка естественного языка, компьютерное зрение, распознавание речи, интернет вещей, социальные сети и базы данных). После удаления дубликатов мы просмотрели заголовки и аннотации, чтобы исключить статьи, в которых не рассматривалось напрямую взаимодействие искусственного интеллекта и конфиденциальности (например, работы, посвященные исключительно производительности ИИ или общей конфиденциальности без использования ИИ, неакадемические источники, а также чисто юридические или этические дискуссии, не связанные с технологиями ИИ).

Диаграмма PRISMA (рис. 4) отражает дополнительный поиск в базе данных, проведенный после формирования основного массива из 94 статей с помощью системы классификации на основе Neo4J. В результате дополнительного поиска было получено 106 записей, из которых перед проверкой были удалены 3 дубликата, 4 записи с автоматическими пометками и 5 нерелевантных записей, в результате чего осталось 94 записи.

Из них 12 записей соответствовали первоначальному критерию релевантности для отбора по заголовку/аннотации. Все 12 записей были исключены на этом этапе по причинам, указанным на схеме (несоответствие теме, дублирование или методологические ограничения).

Параллельно с этим четыре отчета прошли полнотекстовую оценку, но не соответствовали критериям для включения в базу данных. Таким образом, в результате дополнительного поиска не было найдено ни одной новой статьи, и в окончательную базу данных вошли 94 статьи, отобранные в ходе основного процесса анализа и классификации литературы.

Как упоминалось выше, для остальных записей была проведена полнотекстовая оценка. Исследования включались в обзор, если они: (а) затрагивали хотя бы одну технологическую область, связанную с искусственным интеллектом, как определено в разделе 2.3; (б) касались конкретных мер по обеспечению конфиденциальности, подходов или взаимосвязи между конфиденциальностью и искусственным интеллектом; (в) содержали достаточно методологических и контекстуальных деталей для классификации по четырем параметрам (область, мера, подход, направление). На этом этапе статьи исключались из выборки, если в них лишь косвенно затрагивалась тема конфиденциальности, если искусственный интеллект не использовался по назначению или если методологической информации было недостаточно для надежного кодирования. Причины исключения указывались для каждой полнотекстовой статьи. В итоговую выборку вошли 94 статьи.

В соответствии с целями данной работы по составлению карты и таксономии, количественный метаанализ не проводился. Вместо этого мы провели структурированную качественную оценку каждого включенного в обзор исследования, уделив особое внимание ясности исследовательских вопросов, прозрачности источников данных, адекватности методов искусственного интеллекта, четкости формулировок, касающихся конфиденциальности (например, типов нарушений, способов защиты или нормативного контекста), а также ограничениям, на которые указывают авторы. Эти элементы были включены в базу данных в виде графа вместе с четырехмерной классификацией и критически проанализированы в разделах «Результаты» и «Обсуждение». Из-за концептуальной и методологической неоднородности включенных в обзор исследований мы не использовали формальный инструмент оценки риска предвзятости. Это ограничение признается

Несмотря на то, что из-за концептуальной неоднородности включенных исследований не использовался формальный инструмент оценки риска предвзятости или качества, было предпринято несколько мер для минимизации потенциальной предвзятости. Во-первых, критерии включения и исключения были определены до формирования основного массива данных, что позволило избежать адаптации процесса скрининга к формирующемуся набору данных. Во-вторых, были заранее заданы логические поисковые строки и структуры запросов для конкретных областей, чтобы избежать выборочного поиска. В-третьих, все решения по скринингу, классификации и кодированию были независимо перепроверены обоими авторами, чтобы обеспечить единообразие и снизить субъективную предвзятость. Наконец, представление данных в Neo4J на основе графов обеспечивает динамичную и прозрачную структуру, которая позволяет внешним пользователям просматривать, запрашивать и обновлять набор данных, тем самым предоставляя механизм для постоянного устранения потенциальных ошибок в классификации. Все эти шаги в совокупности снижают предвзятость при отборе, классификации и подтверждении результатов даже при отсутствии формального инструмента для выявления предвзятости.

3 Результаты

3.1 Организация

В рамках этого обзора мы искали научные статьи в различных областях, как описано в разделе о методологии, в которых рассматривались вопросы конфиденциальности и искусственного интеллекта. Мы проанализировали статьи по нескольким параметрам: технологическая область, меры по обеспечению конфиденциальности, описанные в статье, подход к обеспечению конфиденциальности и взаимосвязь между искусственным интеллектом и конфиденциальностью. Как упоминалось в предыдущем разделе и пояснялось далее, различные значения этих параметров не являются непересекающимися множествами, то есть в каждой статье может быть несколько областей, подходов и т. д. Тем не менее для систематизации статей, вошедших в этот обзор, мы выбрали ведущую ценность каждой статьи в определенном аспекте. Главной ценностью была технологическая область, но она использовалась только для сортировки. Очевидно, что текстовая информация может быть отображена только в соответствии с одним типом ключа, однако графическое представление не подчиняется этому ограничению. Такой подход к систематизации позволяет выявить закономерности и тенденции в конкретных технологиях, что упрощает понимание того, как вопросы конфиденциальности и решения в этой сфере применяются в каждой области. Разделив статьи на категории в зависимости от основной технологической области, мы можем понять, как в разных сферах, таких как здравоохранение, автономные системы или социальные сети, по-разному решаются проблемы конфиденциальности. Кроме того, такая структура позволяет более целенаправленно сравнивать взаимосвязь искусственного интеллекта и конфиденциальности в каждой области, выявляя как общие черты, так и уникальные подходы в разных сферах. Приведенное ниже текстовое описание (раздел 3.2) включает обзор каждой технологической области. Более подробное описание доступно прямо на графике: по ссылке от каждого узла области можно перейти к PDF-файлу. Различные значения параметра технологической области: машинное обучение, обработка естественного языка, большие языковые модели, компьютерное зрение, распознавание речи, интернет вещей, социальные сети и базы данных.

3.2 Обзор статей по выбранным направлениям

Чтобы дополнить четырехмерную классификацию и сделать выводы более наглядными, мы обобщили основные угрозы конфиденциальности и соответствующие механизмы защиты, выявленные в рассмотренных статьях. В таблице 2 представлен сводный обзор, в котором для каждой технологической области ИИ указаны основные риски для конфиденциальности, о которых говорится в литературе, а также соответствующие методы их снижения. В этом кратком обзоре показано, что проблемы с конфиденциальностью проявляются по-разному в разных областях: от атак на основе логического вывода в машинном обучении до рисков повторной идентификации в компьютерном зрении и утечки конфиденциальных данных в системах распознавания речи и обработки естественного языка. Кроме того, в обзоре представлены различные стратегии защиты, такие как дифференциальная конфиденциальность, федеративное обучение, сокрытие признаков и методы на основе шифрования. Эта таблица дополняет обзор, предлагая сравнение на уровне отдельных областей и выделяя повторяющиеся закономерности, характерные для разнородных приложений искусственного интеллекта. В таблице представлены основные компоненты модели классификации и распределение статей по ее параметрам, что поможет в обсуждении.

Сопоставление, представленное в Таблице 2, также демонстрирует двойственную роль искусственного интеллекта в различных областях: он может быть как причиной нарушения конфиденциальности, так и механизмом ее сохранения. Например, несмотря на то, что такие области, как большие языковые модели и интернет вещей, сопряжены со значительными рисками из-за масштабной агрегации и непрерывного сбора данных, в них также используются одни из самых передовых технологий сохранения конфиденциальности, в том числе федеративное обучение, обработка данных на устройстве и криптографические вычисления. Сводя воедино угрозы и способы защиты, таблица подчеркивает необходимость применения специализированных подходов к защите конфиденциальности. Это подчеркивает важность адаптивных нормативно-правовых и технических основ.

В оставшейся части этого подраздела подробно описывается каждая область.

3.2.1 Машинное обучение (МО)

Oseni et al. (2021) рассмотрели проблемы безопасности и конфиденциальности в сфере искусственного интеллекта, в том числе вопросы безопасной разработки, состязательных угроз и методов защиты. Dilmaghani et al. (2019) провели обзор и обсудили влияние больших данных на конфиденциальность и безопасность в контексте систем машинного обучения и искусственного интеллекта. Ma et al. (2023) проанализировали проблемы конфиденциальности и безопасности, которые могут возникать в распределённых системах машинного обучения. Perino et al. (2022) изучили уязвимости моделей искусственного интеллекта в сфере телекоммуникаций, а также методы сохранения конфиденциальности, такие как федеративное обучение (ФО), дифференциальная конфиденциальность и доверенные среды выполнения. Thuraisingham (2020) рассуждает о том, какую пользу искусственный интеллект может принести человечеству, но при этом не забывает о рисках, связанных с кибератаками и нарушением конфиденциальности. Чжан и др. (2022) предложили таксономию объяснимого искусственного интеллекта (explainable AI, XAI) для обеспечения кибербезопасности в таких областях, как борьба с фишингом и вредоносным ПО. Халид и др. (2023) провели обзор машинного обучения с сохранением конфиденциальности (privacy-preserving machine learning, PPML) в сфере здравоохранения, подробно описав типы атак и методы защиты. Мейриш и др. (2020) представили PrivAI — платформу, изначально ориентированную на конфиденциальность и использующую делимый искусственный интеллект и хранилища конфиденциальных данных. Гупта и др. (2020) исследовали вопросы конфиденциальности смарт-контрактов с использованием искусственного интеллекта и выявили нерешенные проблемы в области безопасности и масштабируемости. Вильегас-Ч и Гарсия-Ортис (2023) предложили концепцию устранения пробелов в обеспечении конфиденциальности при использовании ИИ, уделив особое внимание политике и снижению рисков. Гюльмезоглу и др. (2019) исследовали атаки на мобильные устройства, использующие микроархитектуру современных процессоров и нарушающие конфиденциальность пользователей. Ченг и др. (2020) продемонстрировали возможности FL в сфере финансов и периферийных вычислений на реальных примерах. Чжу и др. (2020) проанализировали преимущества дифференциальной приватности в машинном обучении, глубоком обучении (ГО) и многоагентных системах. Qiu et al. (2019) проанализировали последние достижения в области состязательных атак и технологий защиты, в основном в сфере глубокого обучения. Zhou et al. (2022) проанализировали современные исследования в области состязательных атак и защиты в сфере глубокого обучения. Rodriguez-Barroso et al. (2020) представили платформу Sherpa.ai, объединяющую FL и дифференциальную конфиденциальность в единую систему. Jain and Ghanavati (2020) изучили риски, связанные с конфиденциальностью при использовании больших наборов данных для обучения ИИ, и рассмотрели новые решения. Мердок (2021) рассуждает об искусственном интеллекте в сфере здравоохранения. Махмуд и др. (2022) рассматривают возможности применения искусственного интеллекта для лечения аутизма с сохранением объяснимости и конфиденциальности. Бай и др. (2021) разработали фреймворк FL для диагностики COVID-19 с использованием данных компьютерной томографии грудной клетки, позволяющий сохранять конфиденциальность без централизованного обмена данными. Кайссис и др. (2020) рассмотрели методы безопасного применения искусственного интеллекта в медицинской визуализации, в том числе гомоморфное шифрование и многосторонние вычисления. Рой (2022) изучил методы защиты данных, такие как анонимизация и шифрование, в сфере применения искусственного интеллекта в здравоохранении в соответствии с HIPAA и Общим регламентом по защите данных. Том и др. (2020) проанализировали проблемы конфиденциальности в офтальмологии, связанные с использованием искусственного интеллекта, уделив особое внимание моделям получения согласия и защиты данных. Бак и др. (2022) обсудили баланс между конфиденциальностью и доступом к медицинским данным для исследований в области искусственного интеллекта в странах ЕС. Фритчман и др. (2018) представили систему безопасных многосторонних вычислений (secure multiparty computation, SMC) для зашифрованных прогнозов искусственного интеллекта в клинических условиях. Кириенко и др. (2021) сравнили распределённое обучение с централизованным машинным обучением в медицинских приложениях, требующих соблюдения конфиденциальности. Puiu et al. (2021) применили гомоморфное шифрование для визуализации сердечно-сосудистой системы и подчеркнули важность объяснимости в клиническом искусственном интеллекте. Ishii (2019) сравнил законы о конфиденциальности в разных странах в контексте использования роботов с искусственным интеллектом и предложил меры по их совершенствованию. Willems et al.(2023) показало, что полезность сервисов на основе искусственного интеллекта способствует их распространению, несмотря на опасения по поводу конфиденциальности, что подтверждает парадокс конфиденциальности. Жданов и др. (2022) предложили интегрировать принципы справедливости, подотчётности и прозрачности (СПТ) с конфиденциальностью при принятии решений в сфере искусственного интеллекта в бизнесе. Ван и др. (2019) применили метод дифференциальной приватности для агрегирования общественных моральных предпочтений в области этики автономных транспортных средств. Такер и др. (2018) проанализировали экономику искусственного интеллекта и конфиденциальности, уделив особое внимание сохранению данных, их перепрофилированию и побочным эффектам. Тох и Бирмана (2018) представили концепцию поведенческой конфиденциальности для решения проблемы прогностических возможностей искусственного интеллекта. Рахман и др. (2020) предложили концепцию искусственного интеллекта, сохраняющего конфиденциальность, для периферийных вычислений с использованием полностью гомоморфного шифрования (Fully Homomorphic Encryption, FHE) для защиты данных о качестве обслуживания. Макстей (2020) проанализировал применение эмоционального искусственного интеллекта и призвал к регулированию для защиты неприкосновенности личности и неидентифицирующих данных. Рёммих и др. (2023) изучили реакцию американских работников на эмоциональный искусственный интеллект и пришли к выводу, что он вызывает серьезные опасения по поводу неприкосновенности частной жизни. Чжан и др. (2021) исследовали искусственный интеллект с точки зрения этики и неприкосновенности частной жизни. Саура и др. (2022) исследовал использование искусственного интеллекта государственными органами для анализа поведения и его влияние на конфиденциальность, а также дал рекомендации по этичному обращению с данными. Бендешаш и др. (2021) описали проект, в рамках которого 500 подростков из Дублина приняли участие в семинарах, посвященных искусственному интеллекту, этике и конфиденциальности. Чен (2020) изучил методы защиты персональных данных с точки зрения социальной инженерии. Келли и др. (2023) провели опрос, чтобы выяснить, какие опасения у мировой общественности вызывает искусственный интеллект, в том числе государственная слежка и несанкционированное использование данных. Кронеманн и др. (2023) исследовали, как персонализация и антропоморфизм в сфере искусственного интеллекта влияют на готовность пользователей раскрывать свои данные из соображений конфиденциальности. Керри и др. (2020) подчеркнули необходимость срочного принятия законов о конфиденциальности в связи с тем, что искусственный интеллект меняет подход к использованию данных. Ху и др. (2023) выступили за создание национальной инфраструктуры данных как важнейшего элемента кибербезопасности в сфере управления искусственным интеллектом. Мазурек и Малагоцка (2019) обсудили меняющееся отношение к искусственному интеллекту, конфиденциальности и регулированию, уделив особое внимание этическим аспектам. Хольцингер и др. (2021) связали развитие искусственного интеллекта с Целями устойчивого развития ООН, отметив, что ИИ несет в себе как риски, так и преимущества. Ахмади Мехри и Тучку (2017) предложили виртуальные помещения для обеспечения конфиденциальности на облачных платформах искусственного интеллекта, чтобы повысить уровень доверия. Аль-Хассавне (2023) представляет подробный обзор состязательных атак на приложения с искусственным интеллектом. Амарал и др. (2021) обсуждают использование искусственного интеллекта для автоматизации проверки полноты политик конфиденциальности в соответствии с Общим регламентом по защите данных. Хьюмерик (Humerick, 2017) сосредоточился на проблемных аспектах внедрения GDPR вместе с разработкой и использованием искусственного интеллекта. Бэй и др. (2018) исследовали уязвимость моделей глубокого обучения к угрозам безопасности и конфиденциальности, включая атаки уклонения и отравления.

3.2.2 Обработка естественного языка (NLP)

предложили метод с использованием искусственного интеллекта и обработки естественного языка для выявления конфиденциальных данных в немаркированных документах из таких областей, как здравоохранение и правосудие.Мартинелли и др. (2020)Несмотря на то, что автоматизация показала многообещающие результаты, требуется больше обучающих данных. Проанализировав 14 политик, они пришли к выводу, что ни одна из них не соответствует требованиям в полной мере, сославшись на расплывчатость формулировок. исследовали возможность автоматизации юридической оценки политик конфиденциальности в соответствии с Общим регламентом по защите данных (General Data Protection Regulation, GDPR) с помощью машинного обучения. Contissa et al. (2018) Их полуавтоматический подход, основанный на таких методах, как встраивание слов и тематическое моделирование, показал высокую эффективность при работе с 10 000 документов, при этом в конце процесса проводилась проверка человеком. Xing et al. (2023) сравнили проблемы конфиденциальности, связанные с искусственным интеллектом, в США и Китае на основе данных Twitter и Weibo. Американцы более настороженно относятся к угрозам конфиденциальности, связанным с искусственным интеллектом, в то время как китайские пользователи настроены более оптимистично. Эти различия объясняются культурными особенностями и взглядами на безопасность и технологии. Зарифис и др. (2021) исследовали уровень доверия к медицинским страховым услугам, основанным на искусственном интеллекте. Пользователи проявляли меньше доверия, когда в интерфейсе был виден искусственный интеллект, что позволяет предположить, что прозрачность внедрения ИИ может снизить уровень доверия, пусть и незначительно. Шахрияр и др.(2023) проанализировал риски конфиденциальности на протяжении всего жизненного цикла искусственного интеллекта, включая ML, экспертные системы и NLP. Они классифицировали риски по следующим категориям: идентификация, неточность, непрозрачность и несоблюдение нормативных требований. Их структура продвигает индивидуальный подход к обеспечению конфиденциальности с использованием технологий, повышающих конфиденциальность (PETs), и призывает к повышению прозрачности, объяснимости и соблюдению правил конфиденциальности, таких как GDPR.

3.2.3 Большие языковые модели (БЯМ)

Хотя большие языковые модели (БЯМ) являются частью области обработки естественного языка, их влияние требует отдельного рассмотрения. Li et al. (2023) изучили атаки на конфиденциальность, нацеленные на ChatGPT и Bing, уделив особое внимание атакам с использованием подсказок для извлечения персональных данных. Их эксперименты показали, что с помощью этих методов можно успешно извлекать данные. Gupta et al. (2023) исследовали влияние генеративного искусственного интеллекта, особенно ChatGPT, на кибербезопасность, выявив уязвимости, которые можно использовать для взлома, внедрения подсказок и применения методов обратной психологии. Они предупреждали об угрозах, в том числе о фишинге, автоматизированном взломе и создании вредоносных программ. Предлагаемые решения включают в себя генерацию безопасного кода, автоматизацию киберзащиты, обнаружение атак и соблюдение этических норм. Милреа и Робинсон (2023) представили концепцию доверия к искусственному интеллекту, основанную на «энтропийном подходе» из теории информации, для повышения прозрачности непрозрачных систем («чёрных ящиков»). Их модель поддерживает доверие к сотрудничеству человека и искусственного интеллекта и была подтверждена в ходе тематических исследований. Вей и Лю (2024) рассмотрели вопрос доверия к распределенному искусственному интеллекту, уделив особое внимание надежности, конфиденциальности, справедливости и важности управления для снижения уязвимости распределенного обучения. Перес и др.(2023) исследовали использование ChatGPT в области психического здоровья, выделив такие преимущества, как создание терапевтических заметок и оценок, но также подчеркнув конфиденциальность, точность и этические риски. Они требуют тщательного тестирования и этического надзора в чувствительных приложениях искусственного интеллекта.

3.2.4 Компьютерное зрение.

Ферм и др. (2022) исследовали искусственный интеллект и его влияние на конфиденциальность потребителей, подчеркнув, как такие технологии, как NLP, ML и DL, собирают данные и поднимают вопросы конфиденциальности. На примере таких проектов, как Clearview AI и Hello Barbie, они подчеркнули необходимость этичного и прозрачного обращения с данными. Харичандана и др. (2022) представили легковесную систему искусственного интеллекта для обнаружения деликатного контента на изображениях людей с ограниченными возможностями. Система использует обнаружение объектов и направление взгляда, чтобы запрашивать согласие на публикацию, и делает акцент на этичных методах работы с фотографиями. Лю и др. (2019) предложили метод сохранения конфиденциальности изображений, сочетающий состязательные возмущения (против ИИ) с визуальной маскировкой (против людей). Их подход защищает как от злоумышленников, так и от искусственного интеллекта, анализирующего мультимедийные данные.

3.2.5 Распознавание речи

Curzon et al. (2021) классифицировали риски, связанные с конфиденциальностью при использовании ИИ, по пяти направлениям: компьютерное зрение, распознавание речи, обработка естественного языка, представление знаний и автоматизированное логическое мышление. Для каждого из этих направлений они предложили методы снижения уязвимости. Li and Zhang (2017) исследовали вопросы конфиденциальности, безопасности и этики в таких приложениях с использованием ИИ, как системы распознавания речи и интеллектуальные системы покупок, проанализировав отдельные риски в каждой категории. Лю и соавторы (2021) проанализировали влияние машинного обучения на конфиденциальность при распознавании речи и показали, что машинное обучение может быть как угрозой конфиденциальности, так и средством защиты. Они предложили трехкомпонентную схему: машинное обучение как угроза конфиденциальности, как средство защиты и как инструмент злоумышленника, а также обозначили пробелы в исследованиях. Гандибан и соавторы (2025) представили SER-EQCNN-ESC — новую архитектуру для распознавания эмоций в речи (SER). Он включает в себя фильтрацию Беллмана для снижения уровня шума, целостный динамический частотный преобразователь для извлечения признаков и оптимизатор с одним кандидатом. Для окончательной классификации используется эквивариантная квантовая свёрточная нейронная сеть (Equivariant Quantum Convolutional Neural Network, EQCNN), оптимизированная с помощью алгоритма Educational Competition Optimization, который повышает точность и надёжность поиска.

3.2.6 Интернет вещей (IoT)

Giordano et al. (2022) рассмотрели, как искусственный интеллект обеспечивает конфиденциальность в системах Интернета вещей (IoT), систематизировав литературу по таким аспектам, как алгоритмы, наборы данных и стратегии оценки. Elhoseny et al. (2021) предложили систему Интернета вещей на основе блокчейна и искусственного интеллекта для передачи данных в сфере частного здравоохранения, продемонстрировав повышенную безопасность и производительность. Сяо и др. (2018) проанализировали подходы к машинному обучению (Machine Learning, ML) для обеспечения безопасности интернета вещей, включая аутентификацию и обнаружение вредоносных программ, и рекомендовали использовать трансферное обучение для решения проблемы ограниченной контекстной осведомлённости IoT-устройств. Лю и др. (2022) изучили проблемы конфиденциальности, связанные с умными колонками в Китае, с точки зрения социотехнической парадигмы, подчеркнув роль законодательства, особенно Закона о защите персональных данных (Personal Information Protection Law, PIPL). Джин и др. (2018) проанализировали, как искусственный интеллект и большие данные влияют на конфиденциальность пользователей при транзакциях в сфере интернета вещей, подчеркнув двойственную роль данных в улучшении сервисов и повышении рисков. Манхейм и Каплан (2019) исследовали, как искусственный интеллект влияет на конфиденциальность, демократию и прозрачность, и предложили меры регулирования. Чидер (2018) раскритиковал существующие правовые рамки для Интернета вещей для потребителей, призвав улучшить конфиденциальность и защиту от дискриминации. Ван Ван Ховен Гендерен (2017) поставил под сомнение адекватность GDPR для решения растущей роли искусственного интеллекта в использовании персональных данных. Сюн и др. (2019) представили теоретико-игровую модель на основе искусственного интеллекта для защиты конфиденциальности в краудсенсинге мобильных технологий (MECS), показав ее эффективность при моделировании. Кешта (2022) рассмотрел проблемы конфиденциальности в сфере интернета вещей на базе искусственного интеллекта (AIIoT) в здравоохранении, подчеркнув необходимость в архитектурных стандартах. Сан и др. (2020) изучили роль машинного обучения в обеспечении баланса конфиденциальности и производительности в сетях 6G. Грей и Мехрнежад (2025) предлагают PhotonKey — лёгкую систему сопряжения ключей для ограниченных в ресурсах IoT-устройств, которая использует данные датчика внешней освещённости в качестве общего входного параметра для безопасной генерации симметричных ключей. Седенберг и Чуанг (2017) предупреждали о способности эмоционального ИИ манипулировать людьми без их согласия и призывали к введению нормативных ограничений. Шилиро и др. (2020) предложили подход с использованием глубокого обучения для сохранения конфиденциальности данных об активности мозга (ЭЭГ). Сачдев (2020) исследовал компромисс между безопасностью и конфиденциальностью в периферийном ИИ для цифрового маркетинга. Сугианто и др. (2024) разработали систему общественного наблюдения с сохранением конфиденциальности данных, использующую федеративное обучение в рамках концепции ответственного внедрения искусственного интеллекта (Responsible AI Implementation Framework, RAIFF). Гао и др. (2023) предложили теоретико-игровую модель для поиска баланса между управлением данными о поведении пользователей и использованием облачных данных Интернета вещей. Авад и др. (2024) рассмотрели биометрическую аутентификацию с использованием искусственного интеллекта в Интернете вещей, уделив особое внимание распознаванию лиц и отпечатков пальцев. Йепуганти и др. (2021) разработали систему мониторинга растений с помощью интернета вещей, которая помогает поддерживать психическое здоровье с помощью интерактивного садоводства с использованием облачных технологий и голосовых помощников. Рана и др. (2025) представляют всесторонний обзор приложений машинного обучения в сфере Интернета нановещей, освещая текущие проблемы и намечая направления будущих исследований.

3.2.7 Онлайн-социальные сети (ОСН)

Саттикар и Кулкарни (2012) показывают, как методы искусственного интеллекта, такие как нейронные сети, генетические алгоритмы и нечеткая логика, могут помочь решить проблемы конфиденциальности и безопасности в онлайн-социальных сетях (ОСН), снизив субъективность оценок.

Хиршпрунг и Алкоби (2022) представили систему помощи в обмене информацией в интернете (Online Information-Sharing Assistance, OISA), в которой используется теория игр и агенты с искусственным интеллектом, помогающие пользователям оценивать риски для конфиденциальности при обмене информацией в интернете. Моделирование показало, что агенты OISA превосходят людей в максимизации полезности. Ван и др. (2021) смоделировали динамику конфиденциальности в электронной коммерции с использованием искусственного интеллекта на основе эволюционной теории игр и предложили стратегии для баланса между персонализацией и конфиденциальностью. Маджид и Хван (2023) предупредили о том, что синтетические данные, созданные с помощью искусственного интеллекта, подрывают принцип анонимности, и призвали к усилению защиты конфиденциальности. Ван и др. (2022) проанализировали проблемы безопасности и конфиденциальности в метавселенной, подчеркнув необходимость масштабируемых и совместимых решений. Субраманиан (2017) изучил правовые и этические аспекты использования социальных роботов, уделив особое внимание рискам эмоционального манипулирования и нарушения конфиденциальности. Ченг и Цзян (2020) обнаружили, что, хотя чат-боты повышают удовлетворенность пользователей за счет своей функциональности и развлекательных возможностей, опасения по поводу конфиденциальности снижают уровень доверия и лояльности.

3.2.8 Базы данных (БД)

Devi (2023) описывает основные методы защиты персональных данных, такие как анонимизация и криптография, отмечая их широкую применимость не только в сфере здравоохранения. Hewage et al. (2023) подчёркивают необходимость поиска компромисса между конфиденциальностью и точностью и расширяют обсуждение до анализа потоков данных с сохранением конфиденциальности (Privacy-Preserving Data Stream Mining, PPDSM), что добавляет к проблеме сложности, связанные с работой в режиме реального времени и ресурсами. Хиршпрунг (2023) делит методы PPDM на три категории: анонимизация, рандомизация, криптография и приват-идентификация результатов. Каждая из этих категорий обеспечивает конфиденциальность с помощью разных механизмов.

3.3 Представление в виде графа Neo4J

В дополнение к описанным выше результатам мы предлагаем визуализацию классифицированных данных в виде графа, которая позволяет структурированно понять междоменные взаимосвязи и составить карту данных.

Как описано в разделе «Методология», Neo4J — это система управления графовыми базами данных (Graph Database Management System, GDBMS), предназначенная для эффективного хранения, поиска и анализа взаимосвязей между данными. В отличие от традиционных реляционных баз данных (РБД), основанных на таблицах, Neo4j представляет данные в виде графов. Ниже приведены некоторые примеры, но реальную визуализацию следует выполнять в цифровом формате. Как уже упоминалось выше, все данные и модели доступны на GitHub (Волох, 2024).

Для большей ясности важно отметить, что визуализации Neo4J служат в первую очередь для наглядного представления базовой структуры графа. Их потенциал раскрывается в интерактивной среде, где пользователи могут увеличивать масштаб, фильтровать узлы, изучать отдельные подграфы и динамически исследовать взаимосвязи. Рисунки, приведенные в статье, представляют собой упрощенные статичные изображения, предназначенные только для демонстрации структуры и логики подхода, основанного на сопоставлении доказательств.

На рисунке 5 представлены все рассмотренные статьи со ссылками на конкретные значения по всем параметрам в базе данных Neo4J. Как видно, во многих статьях указано более одного значения по определенному параметру и есть ссылки на несколько параметров. Эта особенность данных, полученных в результате обзора исследований, демонстрирует преимущества представления в виде графа. Разумеется, при отображении полного графа на бумаге он выглядит перегруженным, но при просмотре в цифровом формате его можно масштабировать, обрезать и, что самое важное, запрашивать информацию. Поскольку визуализация Neo4J представляет собой многомерный граф с большим количеством взаимосвязанных узлов, при отображении в виде статической фигуры весь граф может выглядеть слишком плотным. Мы хотим, чтобы читатели изучали граф в интерактивном режиме в среде Neo4J, где функции масштабирования, фильтрации и запросов позволяют детально рассмотреть отдельные компоненты. Таким образом, статические изображения, включенные в рукопись, служат упрощенными иллюстративными примерами, а не аналитическими изображениями в полном разрешении.

На рисунке 6 представлены все рассмотренные статьи со ссылками на их предметные области. Как видно, значительное количество статей относится к областям машинного обучения, социальных сетей и интернета вещей. Также очевидно, что статьи, отнесенные к категории «Базы данных», не имеют других общих характеристик.

На рисунке 7 представлена визуализация всех рассмотренных статей со всеми их связями с конкретными значениями действий. Как видно, во многих статьях представлено несколько действий, поскольку большинство узлов действий имеют высокую степень связности.

На рисунке 8 представлена визуализация всех рассмотренных статей со всеми их связями с конкретными подходами. Как видно, наиболее тесно связанными подходами являются PbD и Advisory. График демонстрирует очень высокую степень связанности этих подходов.

На рисунке 9 представлена визуализация всех рассмотренных статей со всеми их связями и конкретными значениями. Как видно, наиболее тесно связанные между собой узлы относятся к искусственному интеллекту как угрозе конфиденциальности и применению конфиденциальности в сфере ИИ. На графике видно, что эти узлы связаны между собой очень сильно.

Использование Neo4J для реализации графа позволяет выполнять сложные запросы на основе связей. Запрос можно выполнить вручную, наблюдая за графом (в отличие от реляционных баз данных, связи в графе отображаются), или с помощью кода.

Например, код запроса для поиска статей в области ML, в которых рассматривается защита и которые соответствуют подходу PbD, а их направление в области конфиденциальности ИИ — применение конфиденциальности к ИИ, будет выглядеть так:

  • MATCH (p: Paper)-[: BELONGS_TO]- > (d: Домен {описание: “Машинное обучение”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (a: Действие {описание: “Защита”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (ap: Подход {описание: “Конфиденциальность по умолчанию (PbD)”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (r: Relation {description: “Применение принципов конфиденциальности в сфере искусственного интеллекта”}).
  • RETURN p, d, a, ap, r;

Результат этого запроса представлен на рисунке 10.

Другой пример: код запроса для поиска статей в области НЛП, включающих действие информирование, основанное на подходе рекомендаций, а также в области использования ИИ, обеспечивающего конфиденциальность:

  • MATCH (p: Paper)-[: BELONGS_TO]- > (d: Домен {описание: “Обработка естественного языка”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (a: Действие {описание: “Повышение осведомленности”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (ap: Подход {описание: “Рекомендательный”}).
  • MATCH (p: Paper)-[: BELONGS_TO]- > (r: Relation {description: “Использование ИИ, обеспечивающее конфиденциальность”}).
  • RETURN p, d, a, ap, r;

Результат этого запроса представлен на рисунке 11. Визуализация запроса показывает, что этим условиям соответствуют только две статьи.

3.4 Роль и ценность графового представления

Графовое представление в Neo4J служит инструментом для сопоставления фактических данных, который дополняет качественный анализ, выявляя структурные закономерности, которые сложно обнаружить при использовании только описательного подхода. В отличие от традиционных таблиц или таксономий, граф показывает сетевые взаимосвязи между областями, действиями, подходами и направлениями. Это позволяет читателям увидеть кластеры исследовательской деятельности, выявить малоизученные пересечения и проследить, как конкретные механизмы обеспечения конфиденциальности (например, дифференциальная конфиденциальность, гомоморфное шифрование) применяются в различных областях ИИ.

Ключевое преимущество графа в том, что он представляет собой структуру, которую можно запрашивать, расширять и воспроизводить. Исследователи могут изучать граф в интерактивном режиме, фильтруя узлы, выделяя кластеры по темам или исследуя связи между понятиями (например, связывая «большие языковые модели» с «атаками на основе логического вывода» и «методами смягчения последствий»). Такой интерактивный формат позволяет в будущем выявлять недостаточно изученные риски, связанные с конфиденциальностью, проверять новые тенденции в исследованиях или добавлять новые статьи, чтобы расширить карту за пределы настоящего обзора.

Однако представление разнородной литературы в виде графа имеет свои ограничения. Некоторые концептуальные нюансы могут быть упрощены при кодировании в виде отдельных узлов, а плотность взаимосвязанных узлов может визуально усложнять статичные изображения. По этой причине статичные иллюстрации в рукописи служат лишь для демонстрации на высоком уровне, в то время как граф предполагается использовать в интерактивной среде Neo4J, где масштабирование, фильтрация и просмотр на уровне узлов упрощают восприятие. Таким образом, граф следует воспринимать как структурный обзор, а не как замену подробному методологическому сравнению.

4 Обсуждение

Внедрение искусственного интеллекта в различные сферы нашей жизни имеет как преимущества, так и недостатки, особенно в том, что касается конфиденциальности. Нарушение конфиденциальности в эпоху цифровых технологий можно разделить на три этапа: (а) появление информационных систем и крупных баз данных, содержащих конфиденциальные персональные данные, которые могли попасть не в те руки (Шу и др., 2015); (б) появление интернета и публикация конфиденциальных персональных данных самим владельцем (Липперт и Сверч, 2007); (в) появление искусственного интеллекта и сложных процессов, позволяющих получать доступ к конфиденциальной информации, которая, по всей видимости, в настоящее время недоступна. Таким образом, в этом обзоре мы постарались представить результаты современных исследований по этому важному вопросу (Liu et al., 2020).

В этом обзоре были проанализированы восемь технологических областей. Результаты показывают очевидные систематические различия в различных областях, которые отражаются в характере рисков конфиденциальности и зрелости средств защиты. Машинное обучение (ML) и модели большого языка (LLM) демонстрируют наиболее продвинутые и хорошо документированные способы атаки, в частности инверсию модели, вывод о принадлежности и извлечение данных на основе запросов. Напротив, IoT и онлайновые социальные сети (OSN) концентрируются на непрерывном наблюдении за поведением и выводе данных между устройствами / кроссплатформенными. В отличие от машинного обучения и больших языковых моделей, где широко изучаются дифференциальная конфиденциальность, федеративное обучение и криптографические вычисления, системы интернета вещей и распознавания речи по-прежнему в значительной степени полагаются на архитектурные решения и меры, основанные на политиках, из-за ограничений, связанных с вычислительными ресурсами и обработкой данных в режиме реального времени. Компьютерное зрение представляет собой уникальную двойственность: одни и те же модели позволяют как проводить высокоинвазивную идентификацию, так и выполнять высокоэффективные преобразования с сохранением конфиденциальности. Эти междоменные различия указывают на то, что конфиденциальность в сфере искусственного интеллекта не является чем-то монолитным, а зависит от типа данных, архитектуры системы и эксплуатационных ограничений. По этой причине обзор получился разносторонним.