Найти тему
Makves

Как нейросети помогают Makves DCAP защищать корпоративные данные

Оглавление

Последние несколько лет особое внимание в сфере информационных технологий уделяется развитию искусственного интеллекта и нейросетей. Широкие возможности нейросетей позволяют применять их во множестве сфер и отраслей. Так доступные нейросетевые сервисы активно используют для создания реалистичных изображений, написания рекламных текстов и дипломных работ.

Программные решения сферы информационной безопасности не стали исключением. В системе Makves DCAP тоже активно используются возможности нейросетей. Старший специалист по машинному обучению Makves Михаил Васильев рассказывает в этой статье о том, как работают нейросети и как они применяются для защиты корпоративных данных в DCAP-системах.

Михаил Васильев, Старший специалист по машинному обучению Makves
Михаил Васильев, Старший специалист по машинному обучению Makves

Что такое нейросеть?

Даже люди далёкие от программирования составляют алгоритмы в обыденной жизни. Если ребёнок спросит нас, как посчитать площадь круга, то, взяв учебник, мы вспомним, что для этого радиус круга нужно возвести в квадрат, а потом умножить на число Пи. Этот алгоритм легко запрограммировать. Вот пример кода на языке Python:

from math import pi
def get_circle_area(radius):
return pi * (radius ** 2)

А теперь представим себе, что ребёнок спрашивает нас, как отличить фотографию кошки от фотографии собаки. С одной стороны, вопрос очевидный и простой, ведь наш мозг моментально отличает кошек от собак, но объяснить, как именно он это делает, очень сложно. У кошек другая форма ушей и разрез глаз, но даже если на фотографии не будет видно ушей, а глаза животного будут закрыты, то мы всё равно легко поймем, кто это. Наш мозг натренирован визуальными образами животных, которых мы видели миллионы раз, и цельный образ создается в голове очень быстро. А вот придумать алгоритм, позволяющий различать фотографии разных животных, очень сложно. Тут на помощь приходят нейросети.

Приведем сильно упрощенную, но зато наглядную аналогию. Представим школьную задачу по алгебре вида:
X + Y = 10
Y - 2 = 3

Нам нужно найти такие X и Y, чтобы при подстановке их в уравнения ответы получались правильными. И нейросеть — это огромная система уравнений, которой дают правильные ответы (10 и 3 в нашем примере), а она сама подбирает нужные X и Y, которых у неё могут быть миллионы.

Получается, что можно обучить нейросеть так же, как и наш мозг. Нейросети показывают множество фотографий кошек и собак, и указывают, кто из них есть кто. Затем, нейросеть подстраивает свои координаты X и Y таким образом, чтобы начать правильно определять, кто изображен на фотографии.

-3

Практическое применение

Обучить нейросеть можно множеству знаний и умений, поэтому логично использовать их для решения задач и в сфере информационной безопасности. В настоящее время выделяют несколько крупных задач, решаемых нейросетями, в частности задачи CV (computer vision, компьютерное зрение) и NLP (natural language processing, обработка естественного языка). Поговорим о них отдельно.

Звучит как что-то из научной фантастики, но на самом деле к этой категории относят задачи, связанные с нейросетевой обработкой изображений и видео. В корпоративной сети компании может храниться огромное количество графических файлов: отсканированные документы, фотографии из отпуска, скриншоты, обои для рабочего стола. Нейросеть помогает классифицировать эти данные, чтобы выявить наиболее подверженные риску утечки и компрометации, например сканы паспортов сотрудников или договоры.

-4

С текстовыми документами проблем ещё больше. Их количество в корпоративной среде также велико, и разрастаются они с большей скоростью. К тому же поиск по ключевым словам не всегда работает, например, в тексте искомое слово может быть написано с опечаткой. Если в компании есть недобросовестный сотрудник, который имеет доступ к чувствительной информации, он может намеренно искажать тексты, чтобы затруднить их обнаружение. Поэтому нужна такая система, которая «понимает» смысл текста и делает выводы именно на основе смысла, а не отдельных букв.

-5

Нейросети в Makves DCAP

Нейросети применяются и в системе Makves DCAP, а именно для эффективного выявления и классификации информации на файловых хранилищах. Конфиденциальная информация может храниться в различных форматах, поэтому для ее обнаружения и точного анализа данных применение нейросетей является необходимым.

Как происходит анализ изображений

С помощью методов компьютерного зрения Makves DCAP может выявлять нарушения 152-ФЗ. Например, если где-то в сети появятся отсканированные паспорта сотрудников компании, интеллектуальные алгоритмы системы выявят компрометацию персональных данных, и отдел ИБ сможет решить проблему с наименьшим уроном.


При этом Makves DCAP позволяет реализовать гораздо более гибкий подход. При анализе отсканированных документов можно обнаружить дополнительные признаки, например: наличие печатей и подписей, таблиц, фирменных бланков и многого другого. Комбинируя эти признаки, можно находить среди моря офисных документов те, что соответствуют нужному формату. Предположим, отдел ИБ установил, что сотрудник случайно выложил в сеть скан корпоративного письма с конфиденциальными данными. Система Makves позволяет задать гибкие критерии поиска, чтобы проверить, был ли этот случай единичным.

Алгоритм работы с изображениями выглядит следующим образом:
Система находит изображение, после чего специалист отправляет файл на анализ в микросервис, который передает его в первую нейросеть. Она анализирует и классифицирует изображение. Всего классов 12:

1. водительские права
2. банковская карта
3. свидетельство о рождении (старого и нового образца)
4. документы об образовании
5. полис ОМС
6. военный билет
7. пенсионное удостоверение
8. паспорт
9. СНИЛС (старого и нового образца)
10. загранпаспорт
11. прочие офисные документы
12. прочие изображения

-6

Если изображение относится к первым 10 классам, то дополнительный анализ не требуется, файлы классифицируются с меткой 152-ФЗ, и микросервис возвращает системе обнаруженный класс и больше с изображением ничего не делает. Если изображение относится к 12 классу, значит, это обычный неделовой файл, например фотография с корпоратива, селфи, обои для рабочего стола. В этом случае анализ также не требуется, и система с изображением ничего не делает.

А вот если изображение относится к 11 классу (прочие офисные документы), то потребуется провести дополнительный анализ, чтобы выявить косвенные признаки, позволяющие оценить важность документа, и по которым его можно будет потом найти. В этом случае анализ продолжается. В работу вступает нейросеть-детектор. Она ищет в изображении следующие графические элементы:

1. печать с орлом
2. круглая печать
3. треугольная печать
4. прямоугольная печать
5. ЭЦП (электронно-цифровая подпись) с орлом
6. ЭЦП с логотипом
7. ЭЦП без логотипа, только текст
8. угловой штамп
9. бланк организации с логотипом
10. бланк организации без логотипа
11. подпись
12. заполненный блок реквизитов
13. не заполненный блок реквизитов
14. графики
15. фотографии лиц
16. таблицы

-7

Все найденные графические элементы мы запоминаем и запускаем третью нейросеть, которая определяет, напечатан ли документ на гербовой бумаге. Если это так, то нейросеть возвращает системе Makves класс документа, найденные графические элементы и пометку о том, что документ на гербовой бумаге. Если нет — только класс и найденные элементы.

Как происходит анализ текстов

С помощью алгоритмов обработки естественного языка система Makves DCAP помогает выделять документы с договорами, квитанциями, годовыми отчетами и прочим. Более того, система анализирует тексты документов и выделяет упоминающихся там людей и организации. Благодаря этой возможности можно легко найти, например, все документы, подписанные первым лицом компании, либо все документы, где упоминаются ключевые заказчики или компании-конкуренты.

Алгоритм работы нейросетей с текстами похож на работу с изображениями, но есть своя специфика. Система Makves DCAP находит текстовый документ, вычленяет из него сам текст и направляет его специалисту. После предобработки текста его отправляют в нейросеть-классификатор, которая относит текст к одному из классов:

1. Документация
2. Прочие офисные документы
3. Художественная литература (нерабочие тексты)
4. Договоры
5. Технические задания
6. Справки
7. Годовые и квартальные отчёты
8. Квитанции

-8

Если обнаружена художественная литература, микросервис возвращает системе Makves DCAP обнаруженный класс и больше с текстом ничего не делает.

Во всех остальных случаях он запускает поиск именованных сущностей (named entity recognition или NER), то есть в тексте выявляют все названия организаций и имена людей. Каждое найденное название организации приводят к именительному падежу (Министерства культуры Российской Федерации -> Министерство культуры Российской Федерации). А найденные разделяются на фамилию, имя и отчество и приводятся к виду «Фамилия И О» в именительном падеже.

Затем все дубликаты названий и имён удаляются, микросервис возвращает системе Makves обнаруженный класс и найденные именованные сущности без них.

Прогнозы на будущее

Нейросети уже сейчас позволяют решать задачи, которые раньше казались фантастикой. При этом прогресс не стоит на месте и в таких условиях давать прогнозы довольно сложно, но очевидно, что нейросети с нами надолго, и они будут брать на себя всё больше задач. Так в сфере информационной безопасности использование нейросетей уже стало необходимостью. Это связано с необходимость обработки большого объема данных и событий в ИТ-инфраструктуре. Способность нейросетей автоматически обучаться и эффективно работать с огромными массивами данных делает их мощным инструментом для задач классификации, включая обработку и защиту конфиденциальной информации.

Вы можете получить подробную консультацию по использованию системы аудита и мониторинга от Makves и узнать, как она поможет защитить данные вашей компании. Закажите демонстрацию Makves DCAP.