DLP-системы (Data Leakage Prevention) давно используются не только для защиты от утечек данных. Экспансивное развитие технологий сменилось интенсивным: DLP-системы начали расти вглубь, улучшая качество перехвата и анализа контента, благодаря этому данные из DLP становятся бесценными для принятия управленческих решений.
Автор: Сергей Рябов , руководитель группы научно-исследовательской разработки ГК InfoWatch
Это позволяет превратить информационную безопасность в сервис для других подразделений компании, от HR до экономической безопасности.
Первая задача, которую призван решить анализ данных в DLP, — это предотвращение утечек. Без технологий анализа, конечно, утечки тоже можно предотвращать, но для этого придется применять слишком много административных мер и, по сути, всем все запретить. Но в достаточно большой компании такой подход может навредить бизнес-процессам. Мы этого не хотим! Поэтому данные следует блокировать избирательно, а какие именно и для какого именно пользователя, помогают выяснить технологии анализа.
Вторая задача — разметка перехваченного архива. Архив перехвата без разметки — это большая куча данных, работать с которой можно только с помощью полнотекстового поиска, да и он не всегда помогает.
Например, у вас есть номер кредитной карты из 16 цифр, но в переписке он может быть записан в разных форматах, и полнотекстовым поиском в архиве перехвата найти его практически невозможно. Но тут на помощь приходит нормальная форма: в Traffic Monitor введен текстовый объект “кредитная карта”, который отлавливает кредитки, выделяет нормальную форму, снимая любое форматирование, и сохраняет ее в базе данных с привязкой к перехваченному объекту.
Еще одно применение разметки архива событий — анализ цепочек событий. На основе такого анализа появляются продукты класса UBA (User Behavior Analytics), например InfoWatch Prediction. Они анализируют поведение пользователя через анализ набора генерируемых пользователем событий в информационной среде. Хорошо размеченные события могут сигнализировать как о нарушении политик безопасности, так и о рядовых ситуациях. Например, события отправки резюме по почте, посещения сайта поиска работы или сайта оценки работодателей система выстраивает в цепочку и помогает определить, насколько высока вероятность увольнения работника.
А может быть, кто-то из сотрудников аффилирован с компанией-подрядчиком? InfoWatch Prediction умеет выявлять и такие риски. Можно искать аномалии в поведении, такие как аномально большое количество скопированных файлов, говорящее о накоплении информации для будущего слива. Можно отслеживать цепочки событий, применять Machine Learning и прогнозировать риски, можно искать сбои и узкие места в бизнес-процессах и вовремя корректировать их с пользой для организации — InfoWatch Prediction сейчас развивается в этом направлении.
Примитивы данных
Есть очень много способов представления данных. Архивы, например, помогают сэкономить место для хранения информации и время ее передачи. Офисные форматы хранят текст, изображения, разметку текста и другую метаинформацию в одном файле. Однако быстро к этой информации получить доступ затруднительно, ведь нужно знать формат хранения данных, а ИБ — это область быстрого реагирования. Поэтому в DLPсистеме существует богатый набор так называемых экстракторов, их задача — получить примитивы информации из всех используемых в организации форматов (текст, изображения, векторная графика и др.).
Разумеется, текст — самый простой и удобный для анализа примитив информации. DLP-системы даже изображения стараются привести к текстовому представлению с помощью технологии OCR (Optical Character Recognition). С изображениями работают современные методы Computer Vision, в том числе нейронные сети, которые уже могут многое рассказать об изображении. Надеемся, в обозримом будущем технологии разовьются до такой степени, что позволят получать полнотекстовое описание изображения, такие наработки есть уже сейчас. Не так давно из разряда бинарных в отдельный примитив информации перешли векторные изображения, так как мы научились их анализировать как структурированные данные.
Анализ данных
Анализировать данные можно в трех направлениях: смысловом, формальном и содержательном.
- Для смыслового поиска информации обычно используется классификатор. Данный подход позволяет извлечь в случае утечки из перехваченной информации тематику, не имея точного образца для поиска.
- При формальном анализе систему в первую очередь интересует то, как информация оформлена, и уже во вторую — чем она является. Яркий пример такого анализа — регулярные выражения.
- Содержательные виды анализа занимаются поиском по образцу. Для их работы необходимо иметь эталон или несколько эталонов, с которыми и сравнивается анализируемая информация.
Классификация данных
Классификация может быть применена к данным с признаками, по которым мы можем определять некие группы или тематики данных. Довольно долго классификация не применялась к изображениям, но Computer Vision и увеличение вычислительных мощностей позволили классифицировать и этот вид данных. Вообще основной критерий при создании технологий — максимум качества за минимальное время. При анализе данных “на лету” важно делать это быстро, иначе ИБ-специалист узнает о нарушении слишком поздно. DLP-система перехватывает миллионы событий ежедневно, и задержки при анализе такого огромного количества перехваченных объектов могут быть критичны для бизнеса.
В нашей практике был случай, когда в ходе пилотного внедрения DLP прямо на одной из встреч специалист по безопасности получил уведомление об утечке критичных данных и буквально сорвался с места, чтобы заняться этим инцидентом.
Для работы классификатора необходима размеченная обучающая коллекция, то есть каждый документ в ней должен быть отнесен к одному из представленных классов. Самая простая аналогия — директории с документами на жестком диске. Далее из представленных документов выделяются признаки (ключевые точки для изображений и термины для текстов), которые отправляются в математическое ядро с привязкой к категориям, а оно обучается на их основе. После того как классификатор обучен, в него можно подавать документы.
Процесс анализа схож с обучением: из перехваченного документа извлекаются признаки и подаются в математическое ядро для классификации, в результате работы вычисляется факт принадлежности анализируемых данных к одной или нескольким категориям. Заранее настроить классификатор для любой компании чаще всего не представляется возможным, ведь работающие на одном рынке компании могут использовать различные наборы терминов для одной и той же тематической области. Поэтому при установке DLP производится тонкая настройка классификаторов для повышения качества их работы. В процессе эксплуатации также потребуется донастройка классификаторов, так как со временем меняются категории или их признаки.
Кроме изображений, мы классифицируем и тексты. Для классификации текстов можно использовать много подходов из машинного обучения, InfoWatch использует два: косинусную меру (так называемую БКФ — базу контентной фильтрации) и логистическую регрессию.
Для текста признаками являются слова. Слова практически в любом языке имеют формы, при этом конечный смысл текста, в котором эти формы используются, меняется не радикально. Поэтому в наших классификаторах используются морфологические словари для нескольких языков (сейчас их 18), приводя все слова к нормальной форме, что помогает повысить качество классификации. В языках, для которых пока нет словарей, классификаторы работают на точное совпадение. Для повышения точности используется технология исправления опечаток, которая сравнивает слова с известными терминами и может исправить одну опечатку.
Копирайтный анализ
Копирайтный анализ можно представить как поиск фрагментов эталонов в анализируемых данных, в InfoWatch Traffic Monitor реализовано несколько видов такого анализа. Все они работают по схожему принципу: в систему загружаются эталонные документы, затем каждый перехваченный кусок информации сравнивается с эталоном. Каждый вид копирайтного анализа решает свою задачу и обычно работает только с одним примитивом данных. При этом эталонных данных может быть много, в нашей практике заказчики загружали в качестве эталонов до 90 тыс. документов. Выделяются несколько видов копирайтного анализа.
- Классический копирайтный анализ в качестве эталонов принимает текст, так или иначе извлеченный из разных форматов, и анализирует только текстовые примитивы. В результате DLP-система видит релевантность, то есть сколько процентов эталона содержит анализируемый документ, и разметку этих кусков, позволяя подсветить их в интерфейсе пользователя.
- Копирайтный анализ для бинарных данных работает по тем же принципам, но возвращает только релевантность. Поскольку возможности данной технологии все же ограниченны, мы решили пойти дальше в их развитии.
- Для растровых графических данных тоже существует копирайтный анализ, но здесь крайне важен баланс между скоростью и функциональными возможностями. В итоге у нас получилось реализовать алгоритм, сравнимый по скорости с текстовым копирайтным анализом (получилось избавиться от зависимости скорости анализа от количества эталонных изображений, что для компьютерного зрения редкость), не зависящий от формата и разрешения изображения, но зависящий от ориентации. Однако мы не могли детектировать, например, повернутое на 90 град. изображение. Но из этой ситуации нашелся выход: так как число эталонов не ограничено, то в качестве эталонов добавляются все варианты поворота изображения.
- Копирайтный анализ для векторных изображений выделяет графические примитивы и оценивает их взаимное расположение в эталоне, что позволяет перехватывать в том числе и фрагменты векторных изображений.
- Существуют и специализированные виды копирайтного анализа, созданные для решения узких, но очень частых задач заказчиков. В качестве примера можно привести детектор эталонных бланков: его задача — детектировать заполненные анкеты, приняв в качестве эталона пустые бланки, а также читать заполненные поля. Это оказалось незаменимым инструментом для случаев, когда анкетные данные — один из главных цифровых активов бизнеса.
- Детектор эталонных печатей позволяет в качестве эталонов задать круглые или треугольные печати и в дальнейшем искать их на сканах или фото формата А4.
- Поиск картинки в картинке, часто применяемый как детектор кредитных карт. Детектор пытается найти эталонное изображение в анализируемых данных или более узко — поиск логотипов платежных систем. В InfoWatch Traffic Monitor эта технология представлена графическим объектом “кредитная карта”. В широкое применение эту технологию мы пока не выпускаем, поскольку скорость ее работы сильно зависит от количества эталонов, в то время как скорость работы других детекторов практически не деградирует с ростом количества эталонных документов.
Заключение
DLP — это сложные системы с широкими возможностями, и успешность их эксплуатации во многом зависит от того, насколько грамотно вендор произвел тонкие настройки у заказчика. Рынку DLP-решений уже около двадцати лет, он считается сформированным, но иногда можно услышать мнение, что сфера DLP зашла в тупик. Но это далеко не так!
Реальные нарушения, критичные для непрерывности бизнеса и поддержания его эффективности, как правило, находятся на периферии бизнес-процессов. Задачи заказчиков постоянно эволюционируют, меняются каналы передачи, тематики, документы и данные, которые нужно защищать. Чего стоил один только массовый переход на удаленку в этом году, приведший к необходимости обеспечивать кибербезопасность и защиту от утечек в новых условиях!
За последние годы технологии анализа в DLP сделали большой шаг вперед. Теперь можно анализировать взаимодействие с партнерами или конкурентами, строить графы связей, выявлять подозрительные паттерны, определять группы неформальных лидеров, вовремя и грамотно реагировать на риски и многое другое. Из этих технологий вырастают новые применения DLP-систем, которые позволяют решать широкий спектр бизнес-задач, выходящих далеко за пределы информационной безопасности. Подробнее о технологиях анализа и бизнес-задачах, которые не относятся напрямую к ИБ, но решаются с помощью DLP, мы рассказывали на вебинаре “Ваши данные глазами DLP” [1].