Распространение крупных языковых моделей (LLM) ставит под удар один из базовых столпов цифровой эпохи — приватность. Новое исследование показывает, что современные ИИ-системы способны деанонимизировать пользователей по их публикациям эффективнее и масштабнее, чем это удавалось людям-аналитикам.
В течение последних двух десятилетий академические подходы к защите конфиденциальности во многом опирались на концепцию k-анонимности, сформулированную Латаней Суини. Её работа начала 2000-х продемонстрировала, что 87% населения США можно идентифицировать всего по трём параметрам: почтовому индексу, полу и дате рождения. Эти выводы стали фундаментом для регулирования онлайн-рекламы, cookie-трекинга и обработки персональных данных. Однако до недавнего времени масштабная деанонимизация оставалась трудоёмкой задачей. Данные существовали в разрозненной и неструктурированной форме, а «соединение точек» требовало значительных человеческих усилий. Ситуация изменилась с появлением LLM. В предпечатной р