Добавить в корзинуПозвонить
Найти в Дзене
SoftAdvisor

Как технология NER помогает шифровать персональные данные

В настоящее время бизнес находится в непростой ситуации: с одной стороны, персональные данные необходимы для качественной работы с клиентами. С другой – любая ошибка в обращении с ними может привести к огромным штрафам и репутационным потерям. Ранее мы уже рассказывали, как в целом можно защитить чувствительную информацию от утечек с помощью искусственного интеллекта. Теперь хотим подробнее остановиться на одной из технологий – Named Entity Recognition (NER), которая помогает находить и обезличивать конфиденциальные данные в текстах, тем самым защищая их от злоумышленников. NER – это технология обработки естественного языка, которая позволяет находить в тексте так называемые «сущности»: имена людей, адреса, телефоны, номера документов, компании, географические объекты, деньги, проценты и другие подобные элементы. Например, в сообщении: «Иван Петров оставил заявку с номера +7…» NER определит имя человека и номер телефона как отдельные сущности. Далее эти данные можно скрыть, заменить, з
Оглавление

В настоящее время бизнес находится в непростой ситуации: с одной стороны, персональные данные необходимы для качественной работы с клиентами. С другой – любая ошибка в обращении с ними может привести к огромным штрафам и репутационным потерям.

Ранее мы уже рассказывали, как в целом можно защитить чувствительную информацию от утечек с помощью искусственного интеллекта. Теперь хотим подробнее остановиться на одной из технологий – Named Entity Recognition (NER), которая помогает находить и обезличивать конфиденциальные данные в текстах, тем самым защищая их от злоумышленников.

❓ Что такое NER и как работает

NER – это технология обработки естественного языка, которая позволяет находить в тексте так называемые «сущности»: имена людей, адреса, телефоны, номера документов, компании, географические объекты, деньги, проценты и другие подобные элементы.

Например, в сообщении: «Иван Петров оставил заявку с номера +7…» NER определит имя человека и номер телефона как отдельные сущности. Далее эти данные можно скрыть, заменить, зашифровать или и вовсе удалить. Таким образом, даже если конфиденциальная информация вдруг попадет в руки киберпреступников, воспользоваться ею они не смогут.

Что касается принципа работы NER, то инструмент развивался в несколько этапов:

1️⃣ Rule-based системы. Такие решения работают по правилам и шаблонам, которые разработчики создают вручную. Из-за этого они позволяют находить только строго формализованную информацию, например, email-адреса или номера телефонов по формату. Преимущество таких систем в том, что информацию они находят очень быстро. Но основной минус – подобные решения абсолютно негибкие. Например, если формат каких-то данных изменится, – придется переписывать правила.

2️⃣ Классическое машинное обучение (CRF, SVM). Такие инструменты не требуют ручного ввода правил, так как могут самостоятельно обучаться на размеченных данных и адаптироваться к новым паттернам. Они уже способны учитывать контекст и понимать, что слово «Москва» – это город, а не просто набор букв, или что после слова «мистер» с высокой вероятностью будет стоять фамилия человека.

3️⃣ Глубокое обучение (LSTM, BERT, трансформеры). Современные системы глубже анализируют текст, лучше понимают контекст, грамматику и неоднозначные случаи. Например, они могут распознать, когда «apple» – это просто фрукт, а когда – название компании. Именно этот этап сделал NER по-настоящему полезным для бизнеса: технология стала работать достаточно точно, чтобы использовать ее в реальных процессах.

⚙️ Какие готовые решения существуют

Если вы осознаете, что вашей компании точно не помешает NER, то можете воспользоваться как облачными решениями, так и открытыми моделями.

• Среди облачных сервисов, включающих технологию NER, можно рассмотреть Yandex.Cloud и VK Cloud – они предлагают инструменты для обработки текста на русском языке и интегрируются с другими сервисами.

• Популярные открытые модели, которые работают с русским языком, – это Natasha (распознает локации, организации, персоны и ряд других сущностей), а также DeepPavlov – предлагает библиотеку с готовыми моделями и кастомизируется под существующие задачи.

Выбор зависит от того, что именно вам нужно: простая фильтрация текстов или, например, интеграция в сложную инфраструктуру безопасности.

❗️ Какие есть ограничения у NER

Понятное дело, NER работает не безупречно и, как любая технология, может допускать ошибки. К примеру, инструмент может не распознать редкие или нестандартные данные вроде необычных имен. Ему бывает сложно определить, является ли слово персональными данными без дополнительного контекста. Также технология зависима от качества загруженной информации: если она содержит ошибки, опечатки и неточности, то эффективность работы снижается.

Но это не повод отказываться от технологии. Это лишь говорит о том, что NER лучше всего использовать в связке с другими методами защиты, и конечно, под человеческим контролем.

***

Подписывайтесь на наш Telegram-канал – там вы найдете еще больше полезного контента для бизнеса.

А на сайте SoftAdvisor вас уже ждут обзоры популярных сервисов для бизнеса и мнения экспертов.