По мере увеличения объема персональных данных, собираемых и хранимых в цифровом виде, возрастают риски их попадания в руки злоумышленников. Поэтому в большинстве стран мира законодательство строго регулирует правила сбора и обработки персональных данных. Сегодня в нашей статье расскажем Вам об основных методах защиты данных и международном правовом регулировании безопасности.
Нормативно-правовое регулирование за рубежом
В Европейском союзе были приняты Общий регламент ЕС по защите персональных данных (General Data Protection Regulation, GDPR) 2018 года и Директива об электронной конфиденциальности (ePrivacy Directive) 2002 года. Эти нормативно-правовые акты применяются на всей территории Европейской экономической зоны, однако каждое государство ЕС имеет также собственную законодательно-применительную практику.
В Великобритании действует Закон о защите данных (Data Protection Act) 2018 года и Положения о конфиденциальности и электронных коммуникациях (Privacy and Electronic Communications Regulations) 2003 года.
В США наиболее важными отраслевыми федеральными законами о конфиденциальности являются: Закон о защите конфиденциальности детей в Интернете (Children’s Online Privacy Protection Act, COPPA) 2000 года, Закон о мобильности и подотчётности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) 1996 года, Закон об ограничении рассылки незапрошенных порнографических и маркетинговых сообщений (Controlling the Assault of Non-Solicited Pornography And Marketing Act, CAN-SPAM) 2003 года.
Китай руководствуется Законом о кибербезопасности Китайской Народной Республики (Cybersecurity Law) 2017 года, Законом о защите личной информации (Personal Information Protection Law) 2021 года и Спецификацией безопасности личной информации (Personal Information Security Specification) 2020 года. Кроме того, в стране приняты отраслевые законы в таких областях, как здравоохранение, финансы и телекоммуникации.
Узнайте о том, какие меры по аудиту и контролю соблюдения требований по защите персональных данных существуют в Китае в нашей статье в VK. В сообществе вы можете найти актуальные материалы из мира информбезопасности, переводы зарубежных аналитических исследований, включая прогнозы тенденций будущего.
В Японии основным нормативным актом в области ПД является Закон о защите личной информации (Act on the Protection of Personal Information) 2016 года.
Методы анонимизации
Одним из основных методов защиты, указанных в законодательстве разных стран, является анонимизация личных данных, которая позволяет удалить или изменить информацию, благодаря которой возможно идентифицировать личность. Однако не все данные должны быть анонимизированы, и каждый администратор должен самостоятельно определять, какие данные следует сохранить в исходной форме, а какие необходимо изменить.
В настоящее время в зарубежных странах наиболее распространены шесть методов, которые используются для анонимизации конфиденциальных данных:
Маскировка данных
Метод предполагает предоставление доступа к измененной версии конфиденциальных данных. Это достигается путем изменения данных в режиме реального времени по мере получения доступа к ним (динамическое маскирование данных) или путем создания зеркальной версии базы данных с анонимными данными (статическое маскирование данных). Анонимизация может быть выполнена с помощью шифрования, перетасовки терминов/символов или замены словаря.
Псевдонимизация
Это способ маскировки данных, обеспечивающий невозможность соотнесения персональных данных и конкретного лица без использования дополнительной информации. Частные идентификаторы заменяются псевдонимами или ложными идентификаторами, что обеспечивает конфиденциальность данных и статистическую точность.
Основные методы, которые используются для псевдонимизации конфиденциальных данных:
- Скремблирование данных. Этот метод включает в себя смешивание и запутывание букв. Например, имя «Джонатан» можно преобразовать в «Тойнахна».
- Маскировка данных. Метод предполагает сокрытие важных или уникальных частей информации с помощью случайных символов или других данных. Маскирование данных идентифицирует информацию без необходимости манипулировать реальными идентификаторами, например, номер кредитной карты «5600-0000-0000- 0003» можно сохранить как «XXXXXXXX-XXXX-0003».
- Шифрование данных. Шифрование заключается в преобразовании исходных данных в неразборчивую форму. В идеале этот процесс нельзя повернуть вспять без использования правильного ключа дешифрования.
- Токенизация данных. Процессы токенизации заменяют конфиденциальную информацию случайным значением токена, которое используется для доступа к исходной информации. Токены не имеют никакой связи с исходной информацией и могут использоваться разово для повышения уровня их безопасности.
- Размытие данных. Этот метод включает использование аппроксимации значений, чтобы скрыть исходный смысл данных.
При использовании перечисленных выше методов применяются различные способы псевдонимизации:
- Детерминированная псевдонимизация. Этот способ требует замены исходной информации идентичной во всех базах данных и всех ее обновлений. При реализации этого способа необходимо сначала извлечь список уникальных идентификаторов из БД, затем сопоставить список с заменами и подставить исходную информацию в базу.
- Рандомизированная псевдонимизация. Этот способ подставляет под любые вводы исходной информации в базе данных полностью рандомизированные замены. Так, «случайность» выборки применяется глобально к любой записи.
- Рандомизированная псевдонимизация документов. Этот способ заменяет исходную информацию другим значением каждый раз, когда она появляется в базе данных. Однако исходная информация всегда сопоставляется с одним и тем же набором замен в наборе данных. В этом случае замена согласована только между разными базами данных. Таблица сопоставления создается с использованием всех идентификаторов, хранящихся в базе данных, и каждое вхождение идентификатора обрабатывается независимо.
Обобщение
Метод требует исключения определенных данных, чтобы сделать их менее идентифицируемыми. Данные могут быть преобразованы в диапазон значений с логическими границами. Это необходимо для того, чтобы удалить определенные идентификаторы без ущерба для точности данных.
Обмен данными или перетасовка данных
Изменяет значения атрибутов набора данных таким образом, чтобы они не соответствовали исходной информации. Переключение столбцов (атрибутов) с узнаваемыми значениями может повысить эффективность защиты ПД.
Возмущение данных
При использовании этого метода незначительно изменяется исходный набор данных. Например, в базе данных, которая содержит имя пациента, адрес, номер телефона и медицинскую информацию, администратор может зашифровать имена пациентов, чтобы они не соответствовали настоящим. Таким образом, даже если БД будет украдена или потеряна, никто, кроме авторизованных пользователей, не сможет расшифровать фактическое содержимое базы данных.
Синтетические данные
Это программно-сгенерированные данные, созданные с помощью машинных алгоритмов. Реальные данные используются для создания искусственных наборов, а не для изменения или применения исходного набора данных и нарушения защиты и конфиденциальности.
Существует два основных подхода к генерации синтетических наборов данных.
- Аугментация – генерация наборов, на основе имеющихся данных. К ним применяются различные способы искажения: для изображений – различные геометрические преобразования, искажения цвета, кадрирование, поворот; для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями или смешивание с объектами из другого распределения.
- Второй подход применяется в случае, когда реальные данные отсутствуют или их сбор невозможен, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр возможных случаев, и полученная с помощью такого набора модель может давать непредсказуемые результаты в крайних случаях.
Кроме того, существует три типа наборов синтетических данных:
- Полностью синтетический: каждое значение атрибута для каждой записи синтезируется. Записи, содержащиеся в анонимизированном наборе данных, являются не исходными, а новой выборкой из основной совокупности.
- Частично синтетический: генерируются только те атрибуты, которые представляют высокий риск раскрытия информации.
- Гибрид: исходный набор данных смешивается с полностью синтетическим.
Больше полезной информации об ИТ и ИБ — в наших соцсетях:
Telegram
ВКонтакте
Одноклассники
vc.ru