Найти тему
Максим Кульгин

Важность классификации данных для для бизнеса. Подробный разбор

Оглавление

Когда вы не знаете, какая информация требует защиты военного уровня, определить приоритеты для снижения рисков или соблюдения законов о конфиденциальности становится практически невозможно. Именно здесь и возникает необходимость в классификации данных.

Что такое классификация данных?

Процесс анализа неструктурированных или структурированных данных и их категоризации на основе содержания, типа файла и других метаданных называется классификацией данных.

Организации могут использовать классификацию данных для получения ответов на важные вопросы о своих данных, что помогает снизить риски и управлять политиками управления данными. С ее помощью можно определить, где хранятся наиболее важные данные и какие типы конфиденциальной информации чаще всего создают пользователи. Для соблюдения действующих норм конфиденциальности данных необходима (но не достаточна) всесторонняя классификация данных. Организации могут использовать программное обеспечение для классификации данных, чтобы определить релевантную информацию для достижения своих целей.

Для соблюдения требований по защите конфиденциальности данных компании обычно запускают проекты по классификации, чтобы найти в своих хранилищах любую персонально идентифицируемую информацию (PII) и продемонстрировать аудиторам, что она управляется должным образом.

Несмотря на некоторое сходство, классификация данных — это не то же самое, что их индексирование. Хотя и в том, и в другом случае содержимое объекта изучается на предмет его соответствия ключевому слову или концепции, классификация не всегда приводит к созданию индекса, пригодного для поиска. Без хранения индекса содержимого объекта в результатах классификации часто указывается имя объекта и политика или шаблон, который был найден:

  • Объект: Customers.xls
  • Шаблоны: American Express (PCI-DSS) Калифорнийские водительские права (CCPA)

В некоторых решениях по классификации данных создается индекс, который помогает выполнять запросы о доступе к данным (DSAR) и о праве на забвение, обеспечивая быстрый и эффективный поиск.

Цель классификации данных

Снижение рисков

  1. Доступ к персонально идентифицируемой информации ограничен (PII)
  2. Контроль местонахождения интеллектуальной собственности и доступа к ней (ИС)
  3. Уменьшить площадь атаки на конфиденциальные данные.
  4. Классификация должна быть интегрирована в DLP и другие приложения, обеспечивающие соблюдение политик.

Управление/соответствие требованиям

  1. Определите, какие данные регулируются GDPR, HIPAA, CCPA, PCI, SOX и другими нормативными актами.
  2. Чтобы обеспечить дополнительное отслеживание и контроль, примените к защищенным данным теги метаданных.
  3. Можно включить правовые удержания, карантин, архивирование и другие необходимые действия.
  4. Упрощение запросов на доступ к данным и «право на забвение» (DSARs)

Эффективность и оптимизация

  1. Обеспечить эффективный доступ к контенту в зависимости от его типа, использования и других факторов.
  2. Находит и удаляет устаревшие или избыточные данные.
  3. Перенести данные, к которым часто обращаются, на более быстрые устройства или в облачную инфраструктуру.

Аналитика

  1. Для улучшения бизнес-операций включите функцию тегирования метаданных.
  2. Информировать организацию о том, где хранятся и используются данные.

Следует отметить, что, хотя классификация данных является важным первым шагом, ее редко бывает достаточно для принятия мер во многих из перечисленных выше сценариев использования. Добавление дополнительных потоков метаданных, таких как разрешения и активность использования данных, может значительно улучшить возможности использования результатов классификации для достижения критически важных целей.

-2

Уровни чувствительности данных

Уровни классификации чувствительности данных — высокий, средний или низкий.

Высокочувствительные данные

В случае компрометации или уничтожения в результате несанкционированной операции организация или отдельные лица могут понести катастрофические последствия. Финансовые документы, интеллектуальная собственность, данные аутентификации — вот лишь некоторые примеры классификации данных.

Данные средней чувствительности

Предназначены только для внутреннего использования, но в случае их компрометации или уничтожения не окажут катастрофического воздействия на организацию или отдельных лиц. Например, документы и электронные письма, не содержащие конфиденциальной информации.

Данные с низкой чувствительностью

Они предназначены для использования широкой общественностью. Например, содержимое общедоступного веб-сайта.

Виды классификации данных

Брекетинг данных в значительной степени подразумевает наличие множества маркеров, определяющих типы данных, их целостность и конфиденциальность. В процессах классификации данных может также учитываться доступность. Чувствительность данных часто классифицируется на основе различных уровней важности или конфиденциальности, связанных с мерами безопасности, применяемыми для защиты каждого уровня классификации. Существует три типа классификации данных, широко используемых в отрасли:

  • Классификация на основе содержания изучает и интерпретирует файлы в поисках конфиденциальных данных.
  • Классификация на основе контекста рассматривает в качестве косвенных маркеров такие характеристики, как создатель, приложение и местоположение.
  • Пользовательская: Классификация каждого документа основывается на ручном выборе конечного пользователя. Для того чтобы чувствительно отмечать документы, пользовательская классификация зависит от знаний и усмотрения пользователя при создании, редактировании или просмотре.

В зависимости от потребностей компании и типа данных контентный, контекстный и пользовательский подходы могут быть правильными и неправильными.

Определение степени риска данных

Помимо классификации типов, организация должна оценить риск, связанный с различными типами данных, способами их обработки и местами хранения/отправки (конечные точки). Общепринятой практикой является разделение данных и систем на три уровня риска.

  • Низкая степень угрозы: если данные общедоступны и их нелегко потерять (например, восстановить их проще), то такой сбор данных и системы, обеспечивающие его, скорее всего, представляют меньшую опасность, чем другие.
  • Умеренный риск: Данные не доступны публично и используются внутри компании или ее партнерами. Кроме того, вряд ли эти данные являются слишком критичными для операционной деятельности или чувствительными, чтобы считать их «высоким риском». К объектам умеренного риска относятся собственные операционные процедуры, себестоимость продукции и некоторая документация компании.
  • К объектам повышенного риска относится все, что имеет отдаленную чувствительность или критично для операционной безопасности. Кроме того, это данные, которые крайне сложно восстановить (в случае потери). Все острые и важные типы данных относятся к категории высокого риска.

Применение матрицы классификации данных

Некоторым организациям может показаться простым создание и маркировка данных. Определить степень риска данных и систем, скорее всего, будет проще, если в компании не так много различных типов данных или если она проводит меньшее количество операций. Однако многим организациям, имеющим дело с большими объемами данных или несколькими типами данных, потребуется комплексная оценка рисков. Для этих целей чаще всего используется матрица классификации данных.

Этапы эффективной классификации данных

  • Понимание текущей ситуации: Понимание текущей ситуации, включая расположение существующих данных и все применимые нормативные акты, — это, пожалуй, лучшее, с чего можно начать, когда речь идет об эффективной классификации данных. Прежде чем упорядочить данные, необходимо понять, что у вас есть.
  • Разработка политики классификации данных: Соблюдение требований защиты данных невозможно без наличия в организации продуманной и сильной политики. Приоритетной задачей должно стать создание политики.
  • Расстановка приоритетов и организация данных: Теперь, когда у вас есть политика и визуальное представление текущих данных, пришло время их правильно классифицировать. Исходя из степени чувствительности и конфиденциальности данных, выберите оптимальный способ их маркировки.

Классификация данных имеет больше преимуществ, чем просто облегчение их поиска. Современные предприятия нуждаются в классификации данных для того, чтобы осмыслить большой объем информации, доступной в любой момент времени.

Классификация данных дает организации четкое представление обо всех данных, находящихся под ее контролем, и понимание того, где эти данные хранятся, как получить к ним быстрый доступ и как защитить их от потенциальных угроз безопасности. Классификация данных создает упорядоченную структуру, которая позволяет повысить эффективность мер по защите данных и стимулирует сотрудников к соблюдению политик безопасности.

-3

Процесс классификации данных

Классификация данных может быть трудоемким и сложным процессом. Автоматизированные системы могут помочь ускорить этот процесс. Однако прежде всего организация должна определить категории и критерии классификации данных, определить роли и обязанности сотрудников по поддержанию надлежащих протоколов классификации данных, а также установить стандарты безопасности, соответствующие категориям и меткам данных. При правильном подходе этот процесс станет основой для работы сотрудников и третьих сторон, участвующих в хранении, транспортировке или поиске данных. Существует множество видеороликов и вебинаров, которые помогут вам лучше понять методы классификации конфиденциальных данных.

Политики и процедуры должны быть четко определены. Они должны учитывать требования безопасности и конфиденциальность типов данных и быть достаточно простыми для понимания сотрудниками, обеспечивающими соблюдение требований. Например, каждая категория должна включать информацию о типах классифицированных данных, требованиях безопасности, таких как правила получения, передачи и хранения данных, а также потенциальные риски, связанные с нарушением безопасности.

Процесс классификации данных несколько различается в зависимости от целей проекта. Большинство проектов по классификации данных требуют автоматизации для обработки огромных массивов данных, которые ежедневно генерируются предприятиями. Существует несколько лучших практик, которые в целом приводят к успешным проектам классификации данных:

1. Определение целей процесса классификации данных

  • Что именно вы ищете и зачем?
  • Какие системы включаются в этап предварительной классификации?
  • Каким правилам вы должны следовать, когда речь идет о соответствии?
  • Есть ли еще какие-либо бизнес-цели, которые вы хотели бы реализовать? (например, управление рисками, оптимизация хранения и аналитика)

2. Классифицировать типы данных

  • Определите типы данных, которые генерирует компания (например, списки клиентов, финансовые записи, исходный код, планы продуктов).
  • Различают частные и открытые данные.
  • Вы ищете информацию по GDPR, CCPA или другим регулируемым вопросам?

3. Определить уровни классификации

  • Сколько уровней классификации вам потребуется?
  • Каждый уровень должен быть задокументирован, и должны быть приведены примеры.
  • Пользователи должны быть обучены классификации данных (если планируется ручная классификация)

4. Определение процесса автоматизированной классификации

  • Определите, какие данные следует сканировать в первую очередь и как расставить приоритеты. Отдавайте предпочтение активным данным перед устаревшими, а открытым — перед защищенными.
  • Определите, как часто вы будете использовать автоматическую классификацию данных и сколько времени вы будете уделять этому процессу.

5. Определение категорий и критериев классификации

  • Определите и приведите примеры категорий высокого уровня (например, PII, PHI).
  • Определить или включить соответствующие схемы классификации и обозначения.
  • Создать процедуру проверки и подтверждения результатов, как заданных пользователем, так и автоматизированных.

6. Определение результатов и использования классифицированных данных

  • Должны быть определены шаги по снижению рисков и автоматизированные процессы; например, если PHI не используется в течение 180 дней, она может быть перемещена или заархивирована; глобальные группы доступа должны автоматически удаляться из папок, содержащих конфиденциальные данные.
  • Определить метод использования аналитики для улучшения результатов классификации.
  • Определите, что вы хотите получить в результате аналитического анализа.

7. Соблюдать и поддерживать в рабочем состоянии

  • Создать процедуру классификации новых или обновленных данных.
  • Пересмотр и обновление процесса классификации по мере необходимости в связи с изменениями в бизнесе или новыми нормативными актами.

Примеры классификации данных

Данные могут быть классифицированы организацией как ограниченные, частные или общедоступные. При этом общедоступные данные рассматриваются как наименее чувствительные данные с наименьшими требованиями к безопасности, а данные ограниченного доступа — как наиболее чувствительные данные с наивысшей классификацией безопасности. Многие компании начинают с классификации данных такого типа, а затем применяют дополнительные процедуры идентификации и маркировки, в которых данные маркируются в зависимости от их значимости для бизнеса, качества и других классификаций. Наиболее успешные процессы классификации данных используют последующие процессы и рамки, чтобы сохранить конфиденциальные данные на своих местах.

Пример

RegEx — это система анализа строк, определяющая особенности шаблонов поиска. Это сокращение от регулярного выражения. В частности, если вы хотите найти в своих данных все номера кредитных карт VISA, вы можете использовать RegEx:

Эта последовательность ищет 16-символьное число, начинающееся с ‘4’ и состоящее из четырех квартетов, разделенных знаком ‘-‘. Положительный результат генерируется только в том случае, если строка символов совпадает с RegEx. Для дальнейшей проверки этого результата может быть использован алгоритм Luhn.

В этом случае одного RegEx будет недостаточно. Этот RegEx находит корректные адреса электронной почты, но не может отличить личную почту от рабочей:

В более продвинутой политике классификации данных для сужения круга результатов может использоваться сопоставление шаблонов RegEx и поиск по словарю с использованием библиотеки персональных почтовых адресов таких сервисов, как Gmail, Outlook и др.

Многие синтаксические анализаторы, помимо регулярных выражений для поиска шаблонов в тексте, используют метаданные файла, такие как расширение файла и владелец, для определения его классификации. Некоторые механизмы сканирования способны включать в правило классификации не только содержимое файла, но и разрешения и активность использования.

Классификация данных на продвинутом уровне использует машинное обучение для поиска данных, а не зависит только от предопределенных правил или политик, составленных из словарей и RegExes. Например, корпус из 1 000 юридических документов может быть передан алгоритму машинного обучения для изучения того, как выглядит типичный юридический документ. Алгоритм может обнаруживать новые юридические документы на основе своей модели, не полагаясь на сопоставление строк.

Лучшие практики классификации данных

Вот несколько лучших практик, которые следует иметь в виду при внедрении и масштабировании политики классификации данных:

  • Определите, какие законы о соответствии или конфиденциальности применимы к вашей компании, и на основе этой информации создайте план классификации.
  • Начните с ограниченного масштаба (не пытайтесь вскипятить океан) и четко определенных шаблонов (например, PCI-DSS)
  • Для быстрой обработки больших объемов данных следует использовать автоматизированные средства.
  • При необходимости создавайте собственные правила классификации, но не изобретайте велосипед.
  • При необходимости изменить правила/уровни классификации.
  • Проверьте точность результатов классификации.
  • Определите, как извлечь максимальную пользу из полученных результатов и применить классификацию к различным темам, включая безопасность данных и бизнес-аналитику.

Классификация данных — важнейший компонент комплексной стратегии защиты информации. После того как вы определили, какие данные являются конфиденциальными, необходимо определить, кто имеет к ним доступ и что с ними происходит в любой момент времени. Таким образом, вы сможете защитить конфиденциальные данные и не допустить, чтобы ваша компания попала в новости.

-4

Проблемы классификации данных

Практически в каждой компании хранится конфиденциальная информация, причем зачастую гораздо больше, чем кажется. Однако маловероятно, что они точно знают, где хранятся эти данные и как к ним можно получить доступ или скомпрометировать их в рамках своей инфраструктуры. Создание эффективных программ классификации данных в организациях может быть сопряжено с различными трудностями.

Классификация данных может отнимать много времени и средств

Некоторые организации используют только традиционные (ручные) методы классификации данных. Это создает ряд трудностей, в том числе:

  • Чувствительная информация может затеряться в хранилищах данных, где она становится недоступной и незащищенной.
  • Неправильное обращение с конфиденциальной информацией может привести к неловкому положению клиентов и потере доходов.
  • Неправильное обращение с регулируемыми данными может привести к наложению штрафов и взысканий на предприятия.
  • Нарушение клиентских данных может привести к судебным разбирательствам, подмочить репутацию организации и снизить уровень доверия к ней.

Передовые методы классификации данных недостаточно хорошо изучены

Неудовлетворительное преследование за брекетинг данных может привести к водопаду неудач в области защиты и секвестра данных, что создает следующие проблемы:

  • Проблемы, связанные с данными и конфиденциальностью, отодвигаются на второй план, уступая место более насущным приоритетам, таким как продажи, маркетинг, расширение и стоимость продукции.
  • Компании могут не иметь представления о том, где находятся их данные и как их найти.
  • Организации отстают от постоянно меняющихся нормативных требований.
  • Компании чрезмерно усложняют классификацию данных, что приводит к отсутствию практических результатов.

Политики конфиденциальности данных не соблюдаются

Многие организации имеют скорее теоретическую, чем практическую политику классификации данных. Другими словами, корпоративная политика либо игнорируется, либо остается на усмотрение бизнес-пользователей и владельцев данных.

Проблема возникает из-за неспособности ответить на такие важные вопросы, как:

  • Существуют ли дискуссии о конфиденциальности данных, которые неуместны на высшем уровне организации?
  • Кто в конечном итоге отвечает за конфиденциальность данных и имеет ли он полномочия для внедрения и контроля решений?
  • Предоставляются ли конфиденциальные и секретные данные другим организациям?
  • Возможно ли, что политики конфиденциальности и соответствия нормативным требованиям не соблюдаются намеренно или непреднамеренно?

Каковы функции классификации данных в жизненном цикле данных?

Жизненный цикл данных представляет собой идеальную структуру для управления потоками данных в организации. На каждом этапе этого процесса компания должна учитывать вопросы безопасности данных, конфиденциальности и соответствия нормативным требованиям. Классификация данных полезна тем, что она может применяться на любом этапе жизненного цикла данных — от создания до удаления. Вот шесть этапов жизненного цикла данных:

  1. Создание — электронные письма, документы excel, документы word, документы google, социальные сети и веб-сайты генерируют конфиденциальные данные в различных форматах.
  2. Использование в ролевых средствах управления безопасностью — ролевые средства управления безопасностью помечаются конфиденциальными данными на основе внутренних политик безопасности и правил соответствия.
  3. Хранение — Данные хранятся с контролем доступа и шифрованием после каждого использования.
  4. Обмен данными — сотрудники, клиенты и партнеры постоянно обмениваются данными на различных устройствах и платформах.
  5. Архив — Большинство данных в конечном итоге архивируется в системах хранения компании.
  6. Уничтожение на неопределенный срок — большие объемы данных должны быть уничтожены, чтобы снизить нагрузку на хранилище и повысить общую безопасность данных.

Как только данные созданы, они должны быть классифицированы. Классификация данных должна оцениваться и обновляться по мере прохождения этапов жизненного цикла данных.

-5

Заключение

Классификация данных не просто важна, она является краеугольным камнем в строительстве надёжной системы информационной безопасности любой компании

В цифровом мире, где объёмы данных растут с невероятной скоростью и становятся всё более разнообразными, способность эффективно классифицировать информацию становится критически важной.

Классификация данных позволяет не только определить степень важности и конфиденциальности информации, но и разработать соответствующие стратегии защиты. Это помогает бизнесу сосредоточить свои ресурсы на защите самой ценной информации, снижая риски утечек и потерь данных. Кроме того, она обеспечивает соблюдение нормативных требований и законодательства в области защиты данных.

Подход к классификации данных должен быть комплексным и многоуровневым. Он включает в себя не только технические аспекты, такие как шифрование и системы управления доступом, но и организационные меры, включая обучение сотрудников и разработку корпоративных политик.

Эффективная классификация данных не только повышает уровень защиты информации, но и служит основой для построения культуры безопасности внутри организации. Она способствует осознанию сотрудниками важности и ценности информации, которой они управляют ежедневно, и укрепляет доверие клиентов и партнёров к вашему бизнесу

Поэтому, вопрос классификации данных – это не просто техническое или юридическое обязательство, это стратегическое решение, направленное на защиту самого ценного – информационных активов компании. В современном цифровом мире это становится не просто вопросом выбора, но и необходимостью для устойчивого и успешного развития бизнеса.

  📷
📷