LLM в корппроцессах: сначала шлюз приватности, потом «умный ответ

26 января26 янв

1 мин

» Когда начинаешь реально внедрять большие языковые модели, быстро понимаешь неприятное. Самая сложная часть - не «как получить умный ответ», а «как не утопить компанию в утечках». Я держу простой принцип: любые данные, которые уходят в облако, проходят локальный шлюз приватности. Без исключений. 🔒 Пайплайн: в облако уходит только обезличенное 1. Локальный чек на конфиденциальность • быстрый слой: маски и регулярки (телефоны, email, ИНН, паспорт, карты, адреса, реквизиты) • умный слой: локальная модель NER (распознавание сущностей), которая ловит «человеческое» (ФИО, компании, должности, проекты, внутренние названия) На выходе не 2 статуса - “да/нет”, а 3 статуса: SAFE / SENSITIVE / UNKNOWN. Правило риск-контура: ⚠️ UNKNOWN -> SENSITIVE. 2. SAFE: сразу в большую модель Это важно для экономики и UX: безопасность не должна убивать скорость. Точнее, не должна убивать продукт. 3. SENSITIVE: де-идентификация + словарь замен Заменяем на плейсхолдеры и сохраняем карту соответствий:

LLM в корппроцессах: сначала шлюз приватности, потом «умный ответ»

Когда начинаешь реально внедрять большие языковые модели, быстро понимаешь неприятное. Самая сложная часть - не «как получить умный ответ», а «как не утопить компанию в утечках».

Я держу простой принцип: любые данные, которые уходят в облако, проходят локальный шлюз приватности. Без исключений.

🔒 Пайплайн: в облако уходит только обезличенное

1. Локальный чек на конфиденциальность

• быстрый слой: маски и регулярки (телефоны, email, ИНН, паспорт, карты, адреса, реквизиты)

• умный слой: локальная модель NER (распознавание сущностей), которая ловит «человеческое» (ФИО, компании, должности, проекты, внутренние названия)

На выходе не 2 статуса - “да/нет”, а 3 статуса: SAFE / SENSITIVE / UNKNOWN.

Правило риск-контура: ⚠️ UNKNOWN -> SENSITIVE.

2. SAFE: сразу в большую модель

Это важно для экономики и UX: безопасность не должна убивать скорость. Точнее, не должна убивать продукт.

3. SENSITIVE: де-идентификация + словарь замен

Заменяем на плейсхолдеры и сохраняем карту соответствий:

• “Иван Петров” -> [[PERSON_1]]

• “ООО Ромашка” -> [[ORG_1]]

• “9207 123456” -> [[DOC_1]]

Словарь замен - самый чувствительный актив системы:

• живёт только в рамках сессии (TTL 30-60 минут)

• без логирования, лучше в шифрованном виде

• доступ по минимуму прав, один владелец контроля (кстати, кто это? ))

4. В облако отправляем только обезличенный текст

В промте фиксируем правило: “Не изменяй токены вида [[...]]. Возвращай их ровно как есть”.

5. Ответ из облака: локальная ре-гидратация

Перед подстановкой проверяем:

• плейсхолдеры не сломаны

• модель не “додумала” новые чувствительные строки

Если есть сомнение - лучше показать обезличенную версию, чем восстановить данные криво.

🧱 Что меняется, если есть RAG

Каждый чанк, который подкладываем в модель, тоже проходит шлюз.

На проде:

• де-идентификация на индексации

• эмбеддинги (векторные представления) считаем локально по санитизированному тексту

• в векторной базе лежит только обезличенное

• в облако уходят обезличенные чанки

Точные реквизиты и ФИО подставляем только локально.

✅ Критерий качества для собственника

Если завтра провайдер “попросит логи”, в них не должно быть сырья. Ни в промтах, ни в трассировке, ни в ошибках.

Я бы начинал внедрение LLM с этого шлюза, а уже потом спорил про промты и агенты.

t.me/archfinance

#архитектура #безопасность #LLM #цифровизация #управляемость