21 подписчик

🔐 Люди сами сливают свои данные в AI, а OpenAI пытается это исправить

ВчераВчера

1 мин

Сегодня речь пойдет о проблеме, о которой все знают, но почти никто не решает. Пользователи массово вставляют персональные данные в диалоги с LLM ( включая креды и номера карт). На днях OpenAI выпустила инструмент, который работает до того, как данные “утекут” в модель. 🧠 Что за штука? Речь про Privacy Filter, отдельную модель для поиска и удаления PII (персональных данных) из текста. В отличие от классических DLP/regex-фильтров, модель не просто ищет шаблоны вроде “@gmail.com” или “+7…”, а анализирует контекст, понимает, где данные публичные, а где приватные, принимает решение прямо в тексте. Инструмент работает в один проход и поддерживает длинные документы до 128k токенов. 🔍 По каким атрибутам работает поиск? Модель покрывает основные категории чувствительных данных: имена, адреса, email, телефоны, URL, даты, финансовые реквизиты и секреты вроде паролей или API-ключей. 💡 Локальный запуск Модель можно запускать локально, т.е. данные не нужно отправлять в облако. Фильтрац

Сегодня речь пойдет о проблеме, о которой все знают, но почти никто не решает.

Пользователи массово вставляют персональные данные в диалоги с LLM ( включая креды и номера карт).

На днях OpenAI выпустила инструмент, который работает до того, как данные “утекут” в модель.

🧠 Что за штука?

Речь про Privacy Filter, отдельную модель для поиска и удаления PII (персональных данных) из текста.

В отличие от классических DLP/regex-фильтров, модель не просто ищет шаблоны вроде “@gmail.com” или “+7…”, а анализирует контекст, понимает, где данные публичные, а где приватные, принимает решение прямо в тексте.

Инструмент работает в один проход и поддерживает длинные документы до 128k токенов.

🔍 По каким атрибутам работает поиск?

Модель покрывает основные категории чувствительных данных: имена, адреса, email, телефоны, URL, даты, финансовые реквизиты и секреты вроде паролей или API-ключей.

💡 Локальный запуск

Модель можно запускать локально, т.е. данные не нужно отправлять в облако. Фильтрация происходит прямо на стороне пользователя, что существенно снижает риск утечек.

Постепенно двигаемся сторону privacy-by-design.

⚠️ Пока не идеально

OpenAI заявляет, что модель не идеальна, а риски лежат на пользователях 😁. Фильтр может ошибаться, иногда пропускать редкие или нестандартные персональные данные, а иногда наоборот, скрывать лишнее. В общем все стандартно для решений обезличивания.

📎 Официальный релиз:

https://openai.com/index/introducing-openai-privacy-filter/

🔗 Ссылка на GitHub: https://github.com/openai/privacy-filter

Stay secure and read SecureTechTalks 📚

#CyberSecurity #AI #Privacy #PII #OpenAI #LLM #DataSecurity #Infosec #SecureTechTalks