8502 подписчика

Современные методы обезличивания данных

25 июня25 июн

10 мин

Оглавление

Исходная таблица:
1. Директор
2. Менеджер отдела IT

Изображение: recraft

В эпоху стремительной цифровизации и увеличивающегося числа кибератак, вместе с которыми растет и объем “утекающих” из организаций данных, проблема защиты конфиденциальной информации вышла на первый план. Одним из наиболее зрелых иэффективных способов защиты данных является их обезличивание. Ввиду многолетних наработок различных производителей средств защиты и самих организаций-операторов данных обезличивание информации превратилось из простой технической процедуры в комплексный технологический процесс, требующий глубокого понимания как технических аспектов, так и бизнес-потребностей.

Ниже рассмотрим, как меняются подходы к обезличиванию данных в последние десятилетия и какие тенденции существуют для его дальнейшего развития.

1. Эволюция методов обезличивания

1.1. Традиционные подходы и их ограничения

Одни из первых механизмов обезличивания данных представляли собой самописные скрипты и простые программы на их основе. Методы обезличивания, лежащие в основе таких скриптов, были также предельно просты и включали:

Маскировку символами — способ защиты конфиденциальных данных (например, номеров карт, телефонов, персональных идентификаторов) путем замены части символов на специальный символы: *, #, X и т.д.

Примеры маскирования символами:

А) Номер банковской карты:
Исходный: 1234 5678 9012 3456

Замаскированный: 1234 **** **** 3456

Б) Телефонный номер:
Исходный: +7 (912) 345-67-89

Замаскированный: +7 (912) ***-**-89

Нюансы при маскировании символами:

Неполная защита

Если замаскирована только часть данных (например, первые или последние цифры), злоумышленник может восстановить информацию методом перебора. Например, в номере карты 1234 **** **** 3456 можно подобрать комбинацию недостающих цифр.

Ограниченная анонимизация

В некоторых случаях замаскированные данные остаются уникальными и позволяют идентифицировать пользователяввиду маскирования недостаточного числа символов. Например: emailalb*******b@domain.ru может быть однозначно привязан к конкретному человеку.

Сложность валидации

Если данные маскируются частично, могут возникать ошибки при проверке. Например, платежные системы могут отвергать номер карты с *.

Шифрование — это процесс преобразования информации в нечитаемый вид с помощью криптографических алгоритмов и ключей. Зашифрованные данные можно восстановить (дешифровать) при наличии правильного ключа.

Симметричное шифрование

Обладает высокой скоростью работы и подходит для больших объемов данных. Ввиду наличия одного ключа для шифрования и дешифрования не является безопасным методом защиты данных.

Асимметричное шифрование

Медленнее симметричного, но безопаснее благодаря использованию пары ключей (публичный ключ для шифрования, приватный для дешифрования).

Хеширование (необратимое «шифрование»)

Не подразумевает использование ключей и восстановление исходных данных. Используется для хранения паролей и проверки целостности.

В целом метод шифрования подразумевает ряд нюансов, которые надо держать в уме при планировании процесса защиты данных:

Зависимость от ключей. В случае потери ключа теряются и данные. Зачастую ключи уязвимы к брутфорсу.
Производительность. Использование шифрования замедляет работу систем и предполагает значительное увеличение расходов при обработке больших массивов данных.
Вопрос взломостойкости алгоритмов. Значительная часть стандартов шифрования уже сейчас взламывается за считанные минуты (например, MD5). В случае стремительного развития квантовых технологий не останется алгоритмов шифрования, которые нельзя будет взломать.
Сложность хранения и передачи ключей. Возникает риск перехвата ключей при их хранении, передаче и ротации. Как и в случае с хранением и обработкой конфиденциальной информацией остро стоит вопрос обеспечения безопасности на всем жизненном цикле работы с ключами.

ИспользованиеSQL скриптов для обезличивания данных

Скрипты часто применяются для автоматизации обезличивания данных — замены конфиденциальных данных на prod-like данные, маскированные значения или синтетические аналоги. Хотя этот метод удобен для массовой обработки, у него также есть свои нюансы:

Как и при маскировании символами, существует риск неполного или некачественного обезличивания.
Низкая производительность на больших данных (медленная скорость, отсутствие оптимизации под распределенные системы). Так, 1 млн записей обрабатывается Python-скриптами в 20 раз дольше, чем специализированным ПО по обезличиванию данных.
Масштабирование и поддержка процесса обезличивания. Скрипты становятся «одноразовыми»: их сложно поддерживать на постоянно увеличивающихся объемах данных.

· 2. Современные технические решения

2.1. Форматосохраняющеешифрование (Format—PreservingEncryption, FPE)

FPE-алгоритмы позволяют шифровать данные, сохраняя их исходный формат. Например, номер кредитной карты 4276 1234 5678 9012 может быть преобразован в 4276 8943 2156 9012, где:

Сохранена структура номера (16 цифр, разделенных на группы по 4)
Сохранен идентификатор эмитента (первые 4 цифры)
Остальные цифры заменены с использованием криптографического алгоритма

Преимущества FPE:

Данные остаются пригодными для обработки в существующих системах
Сохраняются бизнес-логика и валидация

2.2. Динамическое обезличивание

В отличие от статических методов, которые создают отдельную обезличенную копию данных, динамическое обезличивание применяет правила маскировки «на лету» при каждом обращении к данным. Это реализуется благодаря следующему технологическому стеку:

Прокси-слои — промежуточное ПО, которое анализирует запросы и применяет соответствующие правила маскировки в зависимости от прав пользователя.
Встроенные механизмы СУБД — многие современные системы управления базами данных (Oracle, SQLServer, PostgreSQL) предлагают встроенные функции динамического обезличивания. Используя встроенные механизмы СУБД, важно учитывать возможные проблемы производительности и замедление запросов в 3-5 раз при включении штатного динамического маскирования:

Операция Обычный запрос С маскированием SELECT 100 мс 140-400 мс JOIN 200 мс 500-800 мс

Политики доступа — детализированное управление тем, какие данные и в каком виде предоставляются разным категориям пользователей. Разберем на примере: возьмем таблицу с данными сотрудников. Сотрудники должны получать доступ к информации в зависимости от их роли.

Исходная таблица:

ID Имя Паспорт Зарплата Отдел 1 Иванов Иван 1234567890 100 000 Бухгалтерия 2 Петрова Анна 0987654321 150 000 IT

Информация будет отображаться по запросу разных пользователей в соответствии с определенными логическими правилами:

1. Директор

Видит всё как есть:

1 | Иванов Иван | 1234567890 | 100000 | Бухгалтерия

2 | Петрова Анна | 0987654321 | 150000 | IT

2. Менеджер отдела IT

Видит только своих сотрудников с частично скрытыми данными:

2 | Петрова А. | 098****321 | ~135000-165000 | IT

3. Бухгалтер

Видит только финансовую информацию без персональных данных:

1 | Сотрудник #1 | — | 100000 | Бухгалтерия

2 | Сотрудник #2 | — | 150000 | IT

4. Внешний аналитик

Видит полностью обезличенные данные:

1 | Мужчина, 30-35 лет | — | 90 000-110 000 | Финансовый отдел

2 | Женщина, 25-30 лет | — | 140 000-160 000 | Технический отдел

2.3. Машинное обучение в обезличивании

Современные системы используют искусственный интеллект (ИИ) для:

Автоматического обнаружения конфиденциальной информации — нейросетевые модели анализируют текст и структурированные данные, выявляя конфиденциальную информацию (имена, адреса, номера телефонов и т.д.).
Контекстно-зависимого обезличивания — система «понимает» смысл данных и применяет оптимальный метод обработки. Например, в одном контексте номер телефона может быть полностью скрыт, а в другом — частично замаскирован.
Генерации синтетических данных — создание искусственных наборов данных, которые сохраняют статистические свойства оригинала, но не содержат реальной персональной информации.

3. Практические аспекты построения процесса обезличивания

3.1. Сохранение бизнес-ценности данных

Ключевая задача современного обезличивания — найти баланс между защитой конфиденциальности данных и сохранением их пользы для бизнеса. Такой баланс достигается благодаря обеспечению консистентности и логики данных при их обезличивании.

Консистентность — одно и то же значение всегда преобразуется одинаково во всех связанных данных. Это критически важно для сохранения связей между таблицами и возможности анализа данных. Разберем на примере пары таблиц из случайной базы данных:

1. Таблица с клиентами

ID Имя Телефон 1 Иванов А. +79161234567 2 Петрова М. +79269876543

2. Таблица с заказами

ID Client_ID Товар Телефон Комментарий 101 1 Ноутбук +79161234567 Доставка до двери 102 1 Мышь +79161234567 Самовывоз 27.06 103 2 Клавиатура +79269876543 Доставка до подъезда

Если применить разные правила обезличивания для номеров телефонов и обезличить ID (что делать в целом не рекомендуется), будет невозможно понять, что заказы 101 и 102 принадлежат одному человеку, из-за этого произойдут ошибки в отчетности и аналитика покупок будет некорректна.

Пример:

В таблице клиентов:
+79161234567 → +7916***4567

В таблице заказов:
+79161234567 → +7***234***

Оптимальным решением является реализация консистентного обезличивания:

А) Одинаковые преобразования:
Одно значение → всегда один результат

Б) Сохранение связей:
Если ID=1 в одной таблице, то и в других тоже ID=1

В) Предсказуемость:
Можно анализировать данные, но нельзя раскрыть личность.

3.2. Масштабируемость решений

Перед современными системами обезличивания стоят сложные вызовы:

Обработка огромных объемов данных (петабайты информации). Каждый день в мире генерируется ~402 миллиона терабайт данных. [МФ1] Компании тратят значительную часть своих бюджетов на хранение этих данных, например,компания в сфере ритейлхранит и обрабатывает 500+ ПБ данных[МФ2] , менее известные интернет-магазины измеряют объем обрабатываемой информации в сотнях терабайт. Среднестатистическая компания (~250 человек) хранит 200–300 ТБ (это как50 лет непрерывного видео в HD или 400 млн. документов Word).

Что входит в эти объемы?Типичный состав данных:базы данных заказов (PostgreSQL, MySQL) и финансовые отчеты (Excel, 1С) – 30%;письма (Outlook, Gmail), логи серверов (текстовые файлы) и видео с камер (1 камера = 1 ТБ/месяц) – 70%.Отсюда возникает вторая проблема.

Поддержка разнородных источников (структурированные и неструктурированные данные)
Высокая скорость поступления новых данных (потоковая обработка) и необходимость работы не со всей базой целиком, а с дельтой, появившейся за определенное время

По мере масштабирования процесса обезличивания внутри организации и его интеграции с уже существующими процессами возникает потребность в покрытии системой обезличивания всё большей инфраструктуры:

Поддержка различных форматов данных (SQL, NoSQL, документы, изображения)
API для интеграции с CRM, ERP, SIEM и другими бизнес-системами
Интеграция с системами управления доступом

Текущий уровень развития инструментов обезличивания позволяет им интегрироваться с корпоративными и облачными системами, а также работать в полностью закрытом контуре в зависимости от потребности организации. Грамотно выстраиваемый процесс обезличивания уже сейчас превращает данные в безопасный актив, открывая возможности для аналитики и инноваций при полном соблюдении приватности. Компании, внедряющие эти методы, получают не только compliance, но и конкурентное преимущество.

Тем не менее, цифровизация требует гибкости и адаптивности под стремительно изменяющееся окружение, ввиду этого прогнозируется постепенный переход от статических к динамическим технологиям обезличивания. В конечном итоге, это обеспечит непрерывный процесс обезличивания в фоновом режиме, без участия человека.

Авторы: