2567 подписчиков

Как с помощью ИИ предотвратить утечку конфиденциальной информации в режиме реального времени

12 марта12 мар

12 мин

В данной статье автор рассказывает о ключевых технологиях искусственного интеллекта (ИИ) для предотвращения утечек данных, архитектуре решений и практических сценариях применения. Выделяются преимущества ИИ-подхода и связанные с ним ограничения. Руководителям и специалистами по ИБ будут полезны рекомендации по выбору решения предотвращения утечки данных и дорожная карта внедрения системы. Дмитрий Медведев Директор департамента прикладных решений ЛАНИТ-ТЕРКОМ (входит в группу компаний ЛАНИТ) В современных условиях конфиденциальная информация (персональные данные клиентов, финансовые сведения, результаты НИОКР) стала главным активом бизнеса. Сегодня этот актив находится под постоянной угрозой: по информации Роскомнадзора (РКН) [1], в 2024 г. ведомство выявило 135 случаев утечек персональных данных, которые затронули более 710 млн записей. При этом в статистику РКН включены только те утечки, которые были проверены и подтверждены самим регулятором [2]. В то же время, согласно отчету центр

Оглавление

Масштаб проблемы: цифры, которые заставляют задуматься
Ключевые технологии ИИ для предотвращения утечек
Машинное обучение для классификации данных

Дмитрий Медведев

Директор департамента прикладных решений ЛАНИТ-ТЕРКОМ (входит в группу компаний ЛАНИТ)

В современных условиях конфиденциальная информация (персональные данные клиентов, финансовые сведения, результаты НИОКР) стала главным активом бизнеса. Сегодня этот актив находится под постоянной угрозой: по информации Роскомнадзора (РКН) [1], в 2024 г. ведомство выявило 135 случаев утечек персональных данных, которые затронули более 710 млн записей. При этом в статистику РКН включены только те утечки, которые были проверены и подтверждены самим регулятором [2].

В то же время, согласно отчету центра мониторинга внешних цифровых угроз Solar AURA [3], в III квартале 2025 г. было зафиксировано 573 публичных заявления об утечках в российских компаниях.
Решение этой проблемы требует принципиально нового подхода, и технологии искусственного интеллекта открывают такие возможности.

Масштаб проблемы: цифры, которые заставляют задуматься

По данным IBM [4] и Ponemon Institute, в 2025 г. средняя стоимость утечки данных по всему миру составила 4,44 млн долларов. По результатам исследования ГК InfoWatch [5], проведенного в мае – августе 2024 г., средний ущерб российских компаний от одной утечки информации составляет около 11,5 млн руб. При этом средние затраты от одного инцидента могут составлять порядка 23 млн руб., а максимальный совокупный ущерб в результате одной утечки данных может достигать 140 млн руб. Приведенные суммы – оценка представителей среднего и крупного бизнеса, она не включает в себя оценку крупнейших компаний.

Традиционные DLP-системы (Data Loss Prevention), основанные на статических правилах и сигнатурах, сегодня показывают свою недостаточную эффективность. Они генерируют огромное количество ложных срабатываний – до 40–50% от общего числа сообщений об опасных действиях, что перегружает службы безопасности и приводит к пропуску реальных угроз. Злоумышленники научились обходить правила, используя шифрование, стеганографию и социальную инженерию.

Сфера ИБ переходит от реактивного подхода, когда инциденты расследуются постфактум, к проактивному – предотвращению утечек в момент их возникновения. ИИ становится ключевой технологией, позволяющей анализировать поведение пользователей, контекст данных и выявлять аномалии в режиме реального времени, блокируя угрозу до того, как информация покинет периметр компании.

Ключевые технологии ИИ для предотвращения утечек

Рассмотрим ключевые технологии искусственного интеллекта, использование которых помогает в предотвращении утечек конфиденциальной информации.

Машинное обучение для классификации данных

ML-алгоритмы, обученные на корпоративных данных, способны определять чувствительность информации: что является коммерческой тайной для производственного предприятия, какие сведения критичны для финансовой организации.

Контекстный анализ позволяет отличать, например, публичную финансовую отчетность от внутренних управленческих документов. Модели учитывают не только содержание, но и метаданные: кто создал документ, когда, для какого проекта, кто имеет к нему доступ. Точность классификации современных систем может достигать 95–98%.

Обработка естественного языка (NLP)

NLP-технологии анализируют текстовые коммуникации, понимая не только прямые упоминания конфиденциальной информации, но и способы ее передачи. Система распознает, когда сотрудник пытается обойти политики безопасности, используя синонимы, жаргон или намеренно искажая написание ключевых слов.

Например, сотрудник пишет письмо с информацией по рабочему проекту на личную электронную почту. В подобном случае система интерпретирует контекст коммуникации и идентифицирует потенциальную утечку информации даже без прямого упоминания самих данных.

Применение методов анализа тональности и эмоциональной окраски текстовых сообщений позволяет выявлять сотрудников с признаками неудовлетворенности, которые могут представлять инсайдерскую угрозу для компании.

Поведенческая аналитика

Этот подход заключается в построении динамических профилей поведения для каждого сотрудника и устройства. Например, система "понимает", что сотрудник экономического отдела обычно работает с финансовыми документами с 9 до 18 час. в будние дни, скачивает 10–15 файлов в день и отправляет письма определенному кругу получателей.

Когда тот же сотрудник экономического отдела начинает массово скачивать документы в 23:00, копировать файлы на USB-накопитель или отправлять письма на внешние адреса, система немедленно фиксирует аномалию. Важно, что поведенческая аналитика выявляет не только явные нарушения политик безопасности, но и подозрительные паттерны поведения, которые могут предшествовать утечке.

Архитектура решения реального времени

Эффективная система предотвращения утечек на базе ИИ состоит из нескольких взаимосвязанных компонентов:

Агенты на конечных точках устанавливаются на рабочие станции и серверы, собирая данные о действиях пользователей: копирование файлов, отправка писем, использование приложений, подключение устройств. Агенты работают в фоновом режиме, не влияя на производительность системы.
Сетевые перехватчики трафика анализируют данные, передаваемые по сети: веб-трафик, облачные сервисы, корпоративную почту. Они интегрируются с существующей сетевой инфраструктурой через SPAN-порты или инлайн-режим.
Централизованная аналитическая платформа – часть системы, где происходит обработка данных с помощью ML-моделей. Платформа использует потоковую аналитику (Apache Kafka, AutoMQ) для обработки событий в реальном времени и распределенные вычисления для масштабирования.
Модуль принятия решений на основе результатов анализа автоматически применяет политики: блокирует передачу данных, помещает письмо в карантин, требует дополнительную аутентификацию или уведомляет службу безопасности.

Практические сценарии применения

Защита электронной почты

ИИ-система может анализировать каждое письмо в режиме реального времени. Проверяются вложения (включая содержимое архивов и зашифрованных файлов), тело письма, список получателей. Например, если сотрудник компании отправляет письмо с документом и в теле письма или в самом документе указана аббревиатура NDA на внешний почтовый адрес, письмо автоматически блокируется, а инцидент регистрируется.

Такая система понимает контекст: то же письмо, отправленное внутри компании (на адрес с тем же доменом), будет пропущено. Анализируется история коммуникаций, проверяется, входит ли получатель в белый список, и т.д.

Контроль облачных сервисов

Сотрудники активно используют облачные хранилища – от корпоративных до личных. ИИ мониторит все загрузки, анализируя содержимое файлов.

Когда разработчик пытается загрузить исходный код в личное облако перед увольнением, система блокирует операцию, регистрирует инцидент и уведомляет ИБ- или ИТ-отдел. Контролируется также активность в корпоративных SaaS-приложениях: массовый экспорт данных из CRM, необычные API-запросы, изменение прав доступа и т.д.

Защита от утечек через физические носители

USB-накопители до сих пор остаются популярным каналом утечек. ИИ-система идентифицирует тип копируемых данных, применяя динамические политики: разрешить копирование публичных документов, запретить – конфиденциальных, потребовать согласование руководителя для ограниченных.

Все операции логируются с сохранением метаданных и, при необходимости, теневых копий файлов. Это позволяет провести расследование инцидента и восстановить цепочку событий.

Мониторинг печати и скриншотов

Распечатка документов и создание снимков экрана – менее очевидные, но реальные каналы утечек. Системы на базе компьютерного зрения распознают конфиденциальную информацию на изображениях, применяя OCR и анализ содержимого.

Цифровые водяные знаки с уникальными идентификаторами позволяют отследить источник утечки, если документ все же попадет во внешнюю среду. Знаки могут быть видимыми или скрытыми, содержать информацию о пользователе, дате и времени создания копии.

Интеграция с инфраструктурой безопасности

Современные DLP-системы на базе ИИ интегрируются с SIEM (Security Information and Event Management) и добавляют в события контекст и коррелирующие признаки других инцидентов безопасности. Если SIEM зафиксировал подозрительную активность в сети, а DLP обнаружил попытку массового скачивания файлов тем же пользователем, совокупность факторов указывает на целенаправленную атаку.

Данные из источников Threat Intelligence помогают идентифицировать известные индикаторы компрометации: IP-адреса командных серверов, домены фишинговых кампаний, хеши вредоносных файлов.

API для интеграции с SOAR-платформами (Security Orchestration, Automation and Response) позволяют автоматизировать реагирование на инциденты: заблокировать учетную запись, изолировать рабочую станцию, создать тикет для расследования.

Единая консоль управления предоставляет специалистам SOC целостную картину инцидентов, позволяя быстро принимать решения и координировать действия.

Преимущества ИИ-подхода

К преимуществам ИИ-подхода можно выделить следующие:

Адаптивность к новым угрозам. ML-модели обучаются на новых данных, выявляя ранее неизвестные паттерны атак без необходимости обновления правил вручную. Система эволюционирует вместе с ландшафтом угроз.
Снижение ложных срабатываний на 70–80%. Контекстный анализ и понимание нормального поведения резко сокращают количество ложных алертов, позволяя аналитикам фокусироваться на реальных угрозах.
Выявление сложных многоэтапных атак. ИИ обнаруживает APT (Advanced Persistent Threats), когда злоумышленник месяцами собирает данные небольшими порциями, не вызывая подозрений у традиционных систем.
Автоматизация рутинных операций. До 60–70% инцидентов обрабатываются автоматически, освобождая время специалистов для сложных расследований и стратегических задач.

Вызовы и ограничения

Технические вызовы включают высокие требования к вычислительным ресурсам. Необходимы качественные обучающие данные: модели требуют разметки корпоративной информации. Проблема "черного ящика" (сложность объяснения, почему ИИ принял конкретное решение) создает трудности при расследовании инцидентов и может вызывать недоверие пользователей. Организационные вызовы связаны с балансом между безопасностью и приватностью. Тотальный мониторинг действий сотрудников может восприниматься как нарушение личных границ, требуется прозрачная политика и согласие персонала.

Обучение персонала, как технических специалистов, так и конечных пользователей, требует времени и инвестиций. Сотрудники должны понимать, зачем внедряется система, как она работает, что от них требуется.

Дорожная карта внедрения

Рассмотрим, как может выглядеть дорожная карта внедрения на примере решения для контроля и защиты конфиденциальных данных на основе технологий искусственного интеллекта. Система обеспечивает выявление рисков утечек в текстовом контенте, мониторинг действий пользователей и предоставление рекомендаций по обезличиванию информации.

Этап 1. Подготовка и пилотное внедрение (1–2 месяца)

Аудит существующих бизнес-процессов и классификация данных.
Определение ключевых рисков и критических точек возможных утечек информации.
Формирование тестовой группы пользователей из разных подразделений.
Запуск пилотного проекта на ограниченном контуре для оценки эффективности системы.

Этап 2. Настройка и адаптация моделей ИИ (2–3 месяца)

Предоставление корпоративных данных для обучения моделей: примеров документов, типовых коммуникаций, политик безопасности.
Настройка классификаторов информации согласно специфике бизнеса.
Интеграция с существующими системами: ЭДО, почтовыми клиентами, мессенджерами.
Валидация точности работы моделей перед полноценным развертыванием.

Этап 3. Поэтапное развертывание в режиме мониторинга (1 месяц)

Развертывание системы на всей целевой инфраструктуре в режиме наблюдения.
Фиксирование статистики работы системы и реакции пользователей.
Корректировка политики безопасности на основе собранных данных.
Дополнительное обучение моделей для устранения ложных срабатываний.

Этап 4. Эксплуатация и развитие системы

Активация режима полной защиты с функцией блокировки потенциальных инцидентов.
Организация процесса регулярного обновления моделей на основе новых данных.
Периодический аудит эффективности работы системы.
Корректировка настройки в соответствии с изменениями бизнес-процессов и нормативных требований.

Будущее ИИ в предотвращении утечек

Индустрия движется к нескольким ключевым трендам:

Федеративное обучение позволит обучать модели на данных на конечных устройствах, без передачи их в централизованное хранилище, что критично для соблюдения требований безопасности.
Интеграция с архитектурой Zero Trust создаст комплексную систему, где каждый запрос к данным проверяется с учетом контекста: кто запрашивает, откуда, когда, зачем, какие данные, куда передаются.
Предиктивная аналитика позволит не только реагировать на инциденты, но и предсказывать их. Система будет идентифицировать сотрудников с повышенным риском утечки (например, те, кто собирается уволиться) и применять к ним усиленные меры контроля превентивно.