Найти в Дзене
Puzzle RPA

Распознавание персональных данных с помощью ИИ

С 30 мая вступают в силу обновленные санкции за нарушения в работе с персональными данными. Рассмотрим возможные последствия утечки информации и поделимся опытом применения ИИ для детекции персональных сведений. Согласно последней редакции закона «О персональных данных» N 152-ФЗ, любая информация, которая идентифицирует физическое лицо (косвенно или напрямую) является персональной. К ней относятся паспортные данные, информация о рождении, проживании, контактные сведения и т.п. Кроме того, существует особая или специальная категория данных. Она включает: Для работы с подобными данными требуется строгое соблюдение специальных условий, которые описаны в законе. Если данные обобщенные или анонимизированные и по ним невозможно установить личность конкретного человека, то они не относятся к персональным. Например, статистические данные, не содержащие указаний на отдельные лица. Примеры: Данные из первого примера дают представление о конкретном человеке, значит, относятся к персональным. А в
Оглавление

С 30 мая вступают в силу обновленные санкции за нарушения в работе с персональными данными. Рассмотрим возможные последствия утечки информации и поделимся опытом применения ИИ для детекции персональных сведений.

Какая информация относится к персональной

Согласно последней редакции закона «О персональных данных» N 152-ФЗ, любая информация, которая идентифицирует физическое лицо (косвенно или напрямую) является персональной. К ней относятся паспортные данные, информация о рождении, проживании, контактные сведения и т.п.

Кроме того, существует особая или специальная категория данных. Она включает:

  • Расовую/этническую принадлежность.
  • Политические взгляды, религиозные убеждения и др.
  • Сведения о состоянии здоровья.
  • Информацию из личной жизни.
  • Факты привлечения к ответственности.

Для работы с подобными данными требуется строгое соблюдение специальных условий, которые описаны в законе.

Если данные обобщенные или анонимизированные и по ним невозможно установить личность конкретного человека, то они не относятся к персональным. Например, статистические данные, не содержащие указаний на отдельные лица.

Примеры:

  1. Иванов Иван Иванович, возраст 34 года, проживает в городе Екатеринбург, посетил веб-сайт 21 апреля и проявлял интерес к приобретению ноутбуков.
  2. Не персональные данные: Мужчина в возрасте 30–35 лет, проживающий в Свердловской области, посетил сайт 21 апреля и интересовался ноутбуками.

Данные из первого примера дают представление о конкретном человеке, значит, относятся к персональным. А во втором примере — просто обобщенная информация.

Раскрытие персональных данных: что это значит и какие могут быть последствия

В законе говорится, что передача персональных данных означает их предоставление определенному кругу лиц. А распространение такой информации — это раскрытие сведений для неограниченного круга лиц. Раскрытие может осуществляться как путем передачи, так и путем распространения. В большинстве случаев обязательно предварительно получить согласие человека, к которому относится информация. Нарушение этого требования ведет к штрафам, а иногда даже к уголовной ответственности.

Новые размеры штрафов

Теперь перед началом работы с персональными данными компаниям нужно уведомить об этом Роскомнадзор. В уведомлении следует указать, для чего ведется сбор информации, как она будет обрабатываться и т.п. Если этого не сделать, то есть риск получить штраф до 3 000 000 рублей.

За незаконную передачу персональной информации, затрагивающей от 1 000 до 10 000 человек, предусмотрены следующие финансовые санкции:

  • 200 000–400 000 рублей для государственных служащих или сотрудников некоммерческих организаций.
  • 3 000 000–5 000 000 рублей для ИП и коммерческих компаний.

В случае более масштабных или повторных утечек данных, штрафы будут значительно выше.

Размеры наказаний за нарушения в работе с данными особой категории:

  • 1 000 000–1 300 000 рублей для госслужащих или сотрудников некоммерческих организаций.
  • 10 000 000–15 000 000 рублей для ИП и компаний.

Наш опыт детекции персональных данных с помощью ИИ

Владелец продукта Puzzle GPT Кирилл Беляков объяснил, как обучить модель распознавать данные и поделился советами по надежному хранению персональной информации.

Суть подхода

Чтобы научить модель отличать персональные данные от других, комбинируются два подхода. В первом используются классические регулярные выражения для строго формализованных шаблонов. Во втором применяются контекстные языковые модели, например, мультиязычная BERT. Они умеют ловить более «размытые» случаи. К примеру, описание личных обстоятельств, когда идентификатор не содержит цифр.

Данные для обучения

Обучающий корпус формируется целиком из сгенерированных текстов: скрипт создает фразы с вымышленными паспортами, адресами, телефонами и другими идентификаторами вместе  с разметкой. Этот полностью синтетический материал генерируется с помощью Puzzle GPT. Затем дообучается модель-детектор, ее словарь расширяется редкими шаблонами и нестандартными способами записи номеров документов. Это позволяет корректно распознавать даже необычные форматы.

Метрики

На тестовой выборке из 60 тысяч полностью синтетических сообщений модель показала микросредневзвешенный F1‑score 0,987 при precision 0,983 и recall 0,992. Это означает высокую точность модели.

Заинтересовались нашей моделью для детекции персональных данных? Напишите нам — расскажем, как она поможет в работе именно вам.

Что можно предпринять для защиты персональных данных

Чтобы не нарушать требования работы с персональной информацией и избежать штрафов, следуйте рекомендациям:

  • Храните данные только в защищенных средах. Это означает использование шифрования как при передаче, так и при хранении информации. Доступ к информационным системам должен быть ограничен и регламентирован, а сами системы защищены от внешних вторжений. Например, с помощью межсетевых экранов, систем обнаружения вторжений и регулярных обновлений ПО.
  • Обучайте сотрудников. Они должны понимать, что такое фишинг, как не допустить утечки данных и т.п. Регулярные тренинги и тестирования помогут повысить общий уровень цифровой гигиены в компании.
  • Внедряйте внутренние процедуры по реагированию на инциденты. Это значит, что в случае утечки данных должна быть четкая стратегия для устранения уязвимости.

Если у вас появились вопросы, задавайте их в комментариях!