1190 подписчиков

Теневые утечки через внешние модели ИИ

3 дня назад3 дня назад

7 мин

Похоже, бизнес не до конца осознает побочные эффекты использования LLM. Чем чаще сотрудники используют ИИ в работе, тем больше внутренних данных оказывается за пределами компании незаметно для нее самой. При такой теневой утечке нет злоумышленников – конфиденциальная информация уходит просто потому, что кто-то хотел сделать свою работу чуть быстрее. Автор: Тагир Кабиров, руководитель направления средств контроля пользователей Innostage Весной 2026 г. компания Anthropic случайно опубликовала [1] около полумиллиона строк исходного кода Claude Code. Всему виной человеческий фактор. Годом ранее из-за взлома сервиса OmniGPT (агрегатора, который объединял доступ к нескольким ИИ-моделям) в сеть попали [2] десятки миллионов пользовательских сообщений. Среди них API-ключи, корпоративные документы и рабочая переписка. До этого Samsung выяснила, что ее инженеры трижды за месяц загрузили в ChatGPT фрагменты исходного кода. После этого компания запретила [2] сотрудникам использовать сторонние ИИ. П

Оглавление

Как возникает теневая утечка
Сливы в ИИ – это реальная угроза
Классическая безопасность не справляется

Автор: Тагир Кабиров, руководитель направления средств контроля пользователей Innostage

Весной 2026 г. компания Anthropic случайно опубликовала [1] около полумиллиона строк исходного кода Claude Code. Всему виной человеческий фактор. Годом ранее из-за взлома сервиса OmniGPT (агрегатора, который объединял доступ к нескольким ИИ-моделям) в сеть попали [2] десятки миллионов пользовательских сообщений. Среди них API-ключи, корпоративные документы и рабочая переписка. До этого Samsung выяснила, что ее инженеры трижды за месяц загрузили в ChatGPT фрагменты исходного кода. После этого компания запретила [2] сотрудникам использовать сторонние ИИ. Примечательно, что такие запреты обычно появляются уже после утечек, до них никаких инструкций нет.

Это лишь три громких примера (в реальности подобных инцидентов гораздо больше), но они хорошо иллюстрируют проблему, связанную с использованием публичных ИИ. Большинство утечек изначально не выглядят как утечки. Нет фишинга и вредоносного кода. Просто сотрудник использует удобный инструмент, чтобы ускорить работу, не подозревая, что данные уходят наружу. А потом (с ведома или без ведома ИИ) оказываются не там, где должны.

Как возникает теневая утечка

Среди всей информации, которую сотрудники передают в ИИ-сервисы, есть очевидно безобидные общие запросы. Проблема начинается там, где в ход идут рабочие материалы, потому что далеко не всегда сотрудник понимает, какие из них являются чувствительными. Обычно такие данные делятся на три категории:

персональные данные;
коммерческая информация (финансовые показатели и внутренние аналитические материалы);
данные информационных систем (например, схемы, логи, списки доступа и пр.).

Как это происходит на практике? Например, сотрудник загружает в ChatGPT отчет по информационной безопасности, чтобы проверить его на ошибки и отформатировать. Просит разобрать лог на предмет аномалий, прикладывая журнал системы и таблицу с правами пользователей. Он не планирует ничего сливать, просто хочет быстро проверить корректность настроенных доступов или подготовить презентацию. Задача выглядит рутинной, но в реальности это уже угроза для ИБ.

Сливы в ИИ – это реальная угроза

Во-первых, происходит накопление утечек. Информация постепенно покидает корпоративный контур. По отдельности фрагменты кажутся безобидными, но со временем из них складывается довольно точная картина того, как устроена компания: какие системы используются, как они связаны между собой, какие версии ПО развернуты, какие средства защиты применяются, где обновлены операционные системы, а где – нет.

Во-вторых, переданная информация может сохраняться в публичных моделях и участвовать в процессе обучения. В результате фрагменты корпоративных данных могут влиять на ответы, которые получают другие пользователи. ИИ не действует злонамеренно – он просто обучается на доступных данных, но в результате косвенно раскрывает, какие решения применяются в конкретных компаниях.

В-третьих, существует риск подмены сервисов. Пользователь может перейти по вредоносной ссылке или воспользоваться фальшивым ИИ-инструментом и передать конфиденциальные данные прямо злоумышленникам.

Самый опасный сценарий возникает, когда наружу попадает информация об учетных записях и доступах (логины и пароли пользователей, токены сессий, структура прав). Даже частичных данных достаточно, чтобы значительно упростить подготовку атаки. Они могут использоваться для социальной инженерии или несанкционированного доступа к системам.

Классическая безопасность не справляется

Опасность теневых утечек в том, что они плохо вписываются в традиционную модель ИБ. Обычной системы контроля доступа, защиты сети и серверов оказывается недостаточно.

Большинство защитных механизмов исторически строились вокруг периметра компании: сети, серверов, рабочих станций и т. д. Предполагалось, что главное – не пустить злоумышленника внутрь. Но поскольку в ситуации с ИИ данные покидают периметр добровольно, не происходит ничего подозрительного. Такую утечку сложно заметить и остановить. И почти невозможно устранить постфактум. Она не оставляет следов, характерных для классической атаки. Определенную пользу в этом аспекте могут принести решения класса DLP (если они контролируют отправку информации через формы в браузерах и приложениях) и SWG.
Во многих организациях существуют так называемые файлопомойки – папки и хранилища, куда сотрудники годами складывают документы на всякий случай. Там могут лежать выгрузки из систем, старые отчеты, списки пользователей или промежуточные версии документов. Формально такие файлы не классифицированы как конфиденциальные, но по факту могут содержать чувствительную информацию. При этом защита часто строится вокруг финальных документов – тех, которые официально помечены как коммерческая тайна. Но пока документ создается и редактируется, его копии и черновики могут оказаться в десятках разных мест внутри компании. Значительная часть таких данных фактически остается вне контроля. Когда сотрудник отправляет подобный файл в ИИ-сервис – например, чтобы проверить текст или проанализировать данные, он может даже не подозревать, что передает чувствительную информацию.
В компаниях постоянно создаются новые отчеты, появляются временные выгрузки, запускаются новые процессы, вовлекаются новые сотрудники. Объем информации быстро растет, и системы безопасности не всегда успевают отслеживать, какие данные появляются, где они хранятся и насколько они чувствительны. Типовые коробочные решения безопасности плохо учитывают эту динамику.
Сотрудникам дают доступ к системам для решения поставленных бизнес-задач, но затем его часто забывают отозвать. Со временем такие доступы накапливаются и создают дополнительные риски.

Все это приводит к тому, что значительная часть информации оказывается вне реального контроля. Именно в этой зоне и возникают теневые утечки.

Новая модель защиты

Отказаться от ИИ уже невозможно, это уже очевидно. Но можно наладить контролируемое использование технологии. Для этого достаточно выполнить пять шагов:

Вы должны понимать, какие данные у вас есть и где они хранятся.
Для работы с внешними инструментами можно использовать обезличенные или замаскированные данные, которые сохраняют структуру для анализа, но не содержат реальной конфиденциальной информации.
Формально за инциденты отвечает ИБ, но на практике безопасность зависит от действий всех сотрудников. Любой человек, даже не связанный напрямую с ИТ, может непреднамеренно стать причиной инцидента. Поэтому сотрудники должны иметь доступ только к тем данным, которые необходимы им для работы. Например, для бухгалтеров передача данных наружу должна быть максимально ограничена, а аналитики могут предоставлять обезличенные наборы.
Контролируйте использование ИИ-сервисов. Один из подходов – создание внутренних платформ или прокси-решений (LLM-прокси), через которые сотрудники работают с внешними моделями. Такие системы позволяют проверять запросы и фильтровать данные, блокируя передачу чувствительной информации. Еще безопаснее развертывание моделей в собственной инфраструктуре компании.
Data Governance (управление данными). Это комплексный подход, который объединяет все предыдущие пункты. Главная идея заключается в том, что бизнес, ИТ и ИБ совместно управляют корпоративными данными и понимают, какие данные есть в компании, где они хранятся, кто имеет к ним доступ, какую информацию можно передавать наружу, какие сотрудники могут использовать ИИ-инструменты и для каких задач.

Выводы

Нет смысла оспаривать преимущества, которые дает бизнесу ИИ. Постепенно он станет таким же обычным элементом корпоративной инфраструктуры, как электронная почта или облачные сервисы. Причем ИИ будет все больше использоваться в самой ИБ (например, для анализа угроз, поиска аномалий и обработки больших потоков событий).

Но использование нейросетей должно стать более управляемыми. Отчасти этому будет способствовать развитие уже упомянутых LLM-прокси и внутренних платформ, которые позволяют контролировать взаимодействие сотрудников с ИИ. Отчасти – узкоспециализированные решения, предназначенные для конкретных задач: анализа кода, обработки логов, поиска уязвимостей или подготовки аналитических отчетов. Такие инструменты проще контролировать и интегрировать в корпоративные процессы. Возможно, появятся и новые механизмы ИБ. Но в любом случае без контроля все преимущества, которые ежедневно дает бизнесу ИИ, могут в одночасье перекрыться критическим ущербом.

Гаджеты и электроника

5,73 млн интересуются