Что такое классификация, и зачем она нужна
В предыдущей статье мы уже рассказывали про механизмы мандатного доступа и даже немного затронули механизмы автоматического назначения меток безопасности на файлы в системе, которые и будут подробно рассмотрены в данной статье.
По сути, классификация – это дополнение к базовым механизмам мандатного доступа, в рамках которых предполагается, что пользователи (или некие ответственные лица) выполняют назначение меток безопасности вручную. Очевидно, что при таком взаимодействии случаются ошибки, и файлы могут получать не соответствующие им уровни доступа как по недосмотру, так и по злому умыслу.
Именно классификация позволяет избежать подобных ошибок и снять часть нагрузки с пользователей за счёт автоматизации данных процессов. В процессе классификации система самостоятельно анализирует содержимое файла и присваивает ему метки на основе заранее определённых правил.
Механизмы реализации классификации документов
Классификация является достаточно сложным процессом, и существует множество различных подходов к её реализации, в том числе охватывающих различные типы документов.
Наверное, самым простым из возможных решений является указание правил классификации через регулярные выражения. По сути, система просто выполняет поиск вхождений для каждого из указанных регулярных выражений в переданном ей тексте, и в случае нахождения – говорит о том, что данный текст соответствует метке безопасности, указанной для данных выражений.
Немного более продвинутые варианты позволяют указывать так называемые «веса» для отдельных выражений. Например, мы указываем, что у нас есть метка «ПД» (персональные данные), и для неё создаём два регулярных выражения – одно, настроенное на фразу «Паспортные данные» (с большим весом), а второе – на набор цифр, похожий на серию и номер паспорта (с малым весом). И система назначит метку только в случае, если в документе будет явное наличие фразы о паспортных данных или несколько вхождений цифр, похожих на серию и номер паспорта. При этом всё это можно удобно балансировать и тонко настраивать, так как значения весов регулируемые.
Более сложные системы позволяют создавать комбинации правил, которые применяются, если текст документа подходит сразу под несколько условий; например, метка появится только тогда, когда в документе есть упоминание паспортных данных и похожие на номера цифры. Но всё, что описано выше, – это пример только одного из подходов к классификации. Современные системы могут использовать нейросети для выполнения более тонкого анализа текста документа, который позволяет находить соответствие меткам безопасности не по жёстко заданным конкретным выражениям или шаблонам, а по смыслу содержимого документа. Например, подобному классификатору можно указать, что метке «ПД» соответствует наличие в документе паспортных данных или сочетание адреса электронной почты и ФИО, и он чётко определит наличие подобной информации в документе.
Более продвинутые системы, использующие нейросети, могут быть дополнительно обучены на внутренних документах компании (с указанием, каким именно меткам соответствует содержимое каждого из документов) для максимально тонкой калибровки ответов сети.
Механизмы реализации классификации других файлов
Внимательный читатель мог заметить, что в первом разделе я упоминал классификацию файлов, а в этом до сих пор ограничивался только документами. Для этого также есть причина, поскольку именно это является одним из ключевых различий систем классификации.
Многие системы работают в достаточно простом режиме – они позволяют обрабатывать контент только для офисных форматов файлов, просто доставая текст из этих документов (с использованием специализированных средств для открытия каждого из форматов файлов) и работая уже с ним.
Более продвинутые системы могут иметь встроенные механизмы компьютерного зрения для выполнения анализа изображений. В самом простом варианте они могут просто выполнять распознавание текста с изображения с последующей его обработкой теми же механизмами, что и у офисных документов.
Но есть и более интересные реализации, основанные на искусственном интеллекте. Можно специально обучить нейросеть на образцах документов, чтобы она могла определять по визуальному образу, что перед ней. Например, подобная нейросеть может определить, что ей передан скан паспорта или фотография с монитора. Однако подобные сети относительно не точны – они вполне могут различить то, что ей дали (как уже выше упоминалось) скан именно паспорта, но вот отличить заполненный шаблон от пустого (или два сканы разных страниц) такие сети уже не в состоянии. Тем не менее, они могут служить одним из важных элементов в цепочке классификации документов, позволяя выносить более точный вердикт ещё на этапе предварительного анализа.
Классификация в Secret Cloud DRM
Подойдя к необходимости реализации классификации в рамках продукта Secret Cloud DRM, мы проанализировали все возможные подходы и решили придерживаться уже применяемой нами ранее в данном продукте стратегии.
На данный момент существует достаточно большое количество продуктов, выполняющих функции классификации документов, в том числе с использованием специально обученных нейросетей. Собственно, это в основном DLP-системы, с которыми наш продукт уже давно умеет интегрироваться для выполнения проверок файлов по правилам политик безопасности.
Учитывая, что решению, являющемуся составной частью какого-либо продукта, будет сложно конкурировать со специализированной системой, а также наличие у многих наших заказчиков подобных систем, мы сделали основную ставку не на внутреннюю реализацию, а на интеграцию со сторонними продуктами.
При этом мы учли вариант, когда у заказчика не будет существующей развёрнутой DLP-системы, или же для решения его задач будет достаточно наличия самых простых вариантов функционала. Мы встроили в систему базовую реализацию обработки классификации документов на основе регулярных выражений с возможностью указания весов для каждого из них.
Работает это следующим образом: администратор может для каждой из меток безопасности указать правила классификации – или в ручном режиме, или автоматически. Для автоматического режима он может выбрать или встроенный классификатор (с указанием правил классификации прямо в окне управления меткой), или же внешнюю интеграцию.
После выполнения подобной предварительной настройки каждый файл, который тем или иным образом попадает в систему (например, загрузка через интерфейс, плагин для почты и т.п.) или обновляется внутри системы (с использованием средств совместного редактирования), будет отправлен на классификацию. В рамках данного процесса Secret Cloud DRM будет выполнять анализ файла каждой из указанных для существующих меток безопасности систем и назначать их в соответствии с настроенными для них правилами.
При этом в случае, если файл получит метку, отсутствующую на аккаунте пользователя, пользователь потеряет возможность полного взаимодействия с файлом. Ему будет доступна только передача файла другому пользователю (имеющему необходимую метку безопасности) и запрос администратору на изменение меток.
Послесловие от автора
Вот и закончился цикл статей по Secret Cloud DRM. Это был довольно интересный опыт – ранее я уже занимался написанием статей, но это было больше хобби, которое внезапно для меня переросло во что-то большее. Позвольте на этом завершить последнюю статью данного цикла. Впереди, однако, вас ждёт ещё немало новых материалов, которые, искренне надеюсь, придутся вам по душе.
Автор статьи: Захар Максименко, руководитель отдела аналитики компании Secret Technologies.
Хотите узнать больше о возможностях Secret Cloud DRM для вашей компании? Свяжитесь с нами для получения консультации или закажите демонстрацию на нашем сайте.