LLM разрушают иллюзию анонимности: ИИ научился массово деанонимизировать пользователей

26 февраля26 фев

2 мин

В течение последних двух десятилетий академические подходы к защите конфиденциальности во многом опирались на концепцию k-анонимности, сформулированную Латаней Суини. Её работа начала 2000-х продемонстрировала, что 87% населения США можно идентифицировать всего по трём параметрам: почтовому индексу, полу и дате рождения. Эти выводы стали фундаментом для регулирования онлайн-рекламы, cookie-трекинга и обработки персональных данных. Однако до недавнего времени масштабная деанонимизация оставалась трудоёмкой задачей. Данные существовали в разрозненной и неструктурированной форме, а «соединение точек» требовало значительных человеческих усилий. Ситуация изменилась с появлением LLM. В предпечатной р

Распространение крупных языковых моделей (LLM) ставит под удар один из базовых столпов цифровой эпохи — приватность. Новое исследование показывает, что современные ИИ-системы способны деанонимизировать пользователей по их публикациям эффективнее и масштабнее, чем это удавалось людям-аналитикам.

В течение последних двух десятилетий академические подходы к защите конфиденциальности во многом опирались на концепцию k-анонимности, сформулированную Латаней Суини. Её работа начала 2000-х продемонстрировала, что 87% населения США можно идентифицировать всего по трём параметрам: почтовому индексу, полу и дате рождения. Эти выводы стали фундаментом для регулирования онлайн-рекламы, cookie-трекинга и обработки персональных данных.

Однако до недавнего времени масштабная деанонимизация оставалась трудоёмкой задачей. Данные существовали в разрозненной и неструктурированной форме, а «соединение точек» требовало значительных человеческих усилий. Ситуация изменилась с появлением LLM.

В предпечатной работе «Масштабная онлайн-деанонимизация с LLM» исследователи из MATS Research утверждают, что языковые модели принципиально меняют экономику атак на анонимность. LLM способны автоматически извлекать сигналы, релевантные идентичности, из произвольного текста, сопоставлять их с миллионами профилей и делать вероятностные выводы о принадлежности разных аккаунтов одному человеку — без заранее заданных схем признаков и ручной проверки.

Экспериментальная часть работы включала 338 пользователей Hacker News, чьи профили ссылались на страницы в LinkedIn. Это позволило исследователям иметь «эталон истины» и избежать фактической деанонимизации случайных лиц. На основе комментариев и публикаций был сформирован структурированный профиль, который затем анонимизировали и передали ИИ-агенту.

Модель корректно идентифицировала 226 из 338 целей — около 67% — при точности 90%. Зафиксировано 25 ошибочных идентификаций и 86 случаев, когда система воздержалась от прогноза. Авторы подчёркивают, что метод не является универсальным инструментом раскрытия личности, но демонстрирует достаточную эффективность, чтобы поставить под сомнение устойчивость псевдонимной анонимности.

Дополнительный фактор риска — низкая стоимость. По оценке авторов, весь эксперимент обошёлся примерно в 2 тысячи долларов, а стоимость анализа одного профиля составила от 1 до 4 долларов. С дальнейшим удешевлением вычислений барьер для подобных атак будет снижаться.

Потенциальные сценарии применения вызывают обеспокоенность. Государственные структуры могут использовать такие методы для идентификации журналистов и активистов. Корпорации — для построения гипертаргетированных рекламных профилей на основе форумов и дискуссионных площадок. Киберпреступники — для подготовки более убедительных атак социальной инженерии.

Ключевой вывод исследования заключается в том, что уникальность личности формируется не отдельными данными, а их комбинацией. LLM способны автоматически обнаруживать этот «композиционный отпечаток». В условиях, когда машинный анализ становится дешевле и быстрее, традиционная модель анонимного присутствия в сети перестаёт быть надёжной защитой.

Таким образом, развитие языковых моделей переводит проблему приватности из теоретической плоскости в прикладную: вопрос уже не в том, можно ли идентифицировать пользователя по цифровым следам, а в том, насколько быстро и дёшево это можно сделать.

Источник: https://www.theregister.com/2026/02/26/llms_killed_privacy_star/

Больше интересного – на медиапортале https://www.cta.ru/