С 30 мая вступают в силу обновленные санкции за нарушения в работе с персональными данными. Рассмотрим возможные последствия утечки информации и поделимся опытом применения ИИ для детекции персональных сведений.
Какая информация относится к персональной
Согласно последней редакции закона «О персональных данных» N 152-ФЗ, любая информация, которая идентифицирует физическое лицо (косвенно или напрямую) является персональной. К ней относятся паспортные данные, информация о рождении, проживании, контактные сведения и т.п.
Кроме того, существует особая или специальная категория данных. Она включает:
- Расовую/этническую принадлежность.
- Политические взгляды, религиозные убеждения и др.
- Сведения о состоянии здоровья.
- Информацию из личной жизни.
- Факты привлечения к ответственности.
Для работы с подобными данными требуется строгое соблюдение специальных условий, которые описаны в законе.
Если данные обобщенные или анонимизированные и по ним невозможно установить личность конкретного человека, то они не относятся к персональным. Например, статистические данные, не содержащие указаний на отдельные лица.
Примеры:
- Иванов Иван Иванович, возраст 34 года, проживает в городе Екатеринбург, посетил веб-сайт 21 апреля и проявлял интерес к приобретению ноутбуков.
- Не персональные данные: Мужчина в возрасте 30–35 лет, проживающий в Свердловской области, посетил сайт 21 апреля и интересовался ноутбуками.
Данные из первого примера дают представление о конкретном человеке, значит, относятся к персональным. А во втором примере — просто обобщенная информация.
Раскрытие персональных данных: что это значит и какие могут быть последствия
В законе говорится, что передача персональных данных означает их предоставление определенному кругу лиц. А распространение такой информации — это раскрытие сведений для неограниченного круга лиц. Раскрытие может осуществляться как путем передачи, так и путем распространения. В большинстве случаев обязательно предварительно получить согласие человека, к которому относится информация. Нарушение этого требования ведет к штрафам, а иногда даже к уголовной ответственности.
Новые размеры штрафов
Теперь перед началом работы с персональными данными компаниям нужно уведомить об этом Роскомнадзор. В уведомлении следует указать, для чего ведется сбор информации, как она будет обрабатываться и т.п. Если этого не сделать, то есть риск получить штраф до 3 000 000 рублей.
За незаконную передачу персональной информации, затрагивающей от 1 000 до 10 000 человек, предусмотрены следующие финансовые санкции:
- 200 000–400 000 рублей для государственных служащих или сотрудников некоммерческих организаций.
- 3 000 000–5 000 000 рублей для ИП и коммерческих компаний.
В случае более масштабных или повторных утечек данных, штрафы будут значительно выше.
Размеры наказаний за нарушения в работе с данными особой категории:
- 1 000 000–1 300 000 рублей для госслужащих или сотрудников некоммерческих организаций.
- 10 000 000–15 000 000 рублей для ИП и компаний.
Наш опыт детекции персональных данных с помощью ИИ
Владелец продукта Puzzle GPT Кирилл Беляков объяснил, как обучить модель распознавать данные и поделился советами по надежному хранению персональной информации.
Суть подхода
Чтобы научить модель отличать персональные данные от других, комбинируются два подхода. В первом используются классические регулярные выражения для строго формализованных шаблонов. Во втором применяются контекстные языковые модели, например, мультиязычная BERT. Они умеют ловить более «размытые» случаи. К примеру, описание личных обстоятельств, когда идентификатор не содержит цифр.
Данные для обучения
Обучающий корпус формируется целиком из сгенерированных текстов: скрипт создает фразы с вымышленными паспортами, адресами, телефонами и другими идентификаторами вместе с разметкой. Этот полностью синтетический материал генерируется с помощью Puzzle GPT. Затем дообучается модель-детектор, ее словарь расширяется редкими шаблонами и нестандартными способами записи номеров документов. Это позволяет корректно распознавать даже необычные форматы.
Метрики
На тестовой выборке из 60 тысяч полностью синтетических сообщений модель показала микросредневзвешенный F1‑score 0,987 при precision 0,983 и recall 0,992. Это означает высокую точность модели.
Заинтересовались нашей моделью для детекции персональных данных? Напишите нам — расскажем, как она поможет в работе именно вам.
Что можно предпринять для защиты персональных данных
Чтобы не нарушать требования работы с персональной информацией и избежать штрафов, следуйте рекомендациям:
- Храните данные только в защищенных средах. Это означает использование шифрования как при передаче, так и при хранении информации. Доступ к информационным системам должен быть ограничен и регламентирован, а сами системы защищены от внешних вторжений. Например, с помощью межсетевых экранов, систем обнаружения вторжений и регулярных обновлений ПО.
- Обучайте сотрудников. Они должны понимать, что такое фишинг, как не допустить утечки данных и т.п. Регулярные тренинги и тестирования помогут повысить общий уровень цифровой гигиены в компании.
- Внедряйте внутренние процедуры по реагированию на инциденты. Это значит, что в случае утечки данных должна быть четкая стратегия для устранения уязвимости.
Если у вас появились вопросы, задавайте их в комментариях!