1913 подписчиков

Большие языковые модели убили звезду приватности: нам не перемотать назад, мы зашли слишком далеко

26 февраля26 фев

4 мин

Исследователи показали, что большие языковые модели (LLM) могут деанонимизировать пользователей сети, даже тех, кто использует псевдонимы, с высокой точностью. Выясните, что это значит для вашей конфиденциальности в интернете. Вы обнаружите, что в наши дни негде спрятаться. — theregister.com Добавьте конфиденциальность в список потенциальных жертв, вызванных распространением ИИ, поскольку исследователи обнаружили, что большие языковые модели (LLM) могут использоваться для деанонимизации интернет-пользователей — даже тех, кто использует псевдонимы — более эффективно, чем человеческие сыщики. Значительная часть академических работ по конфиденциальности в сети за последние 25 лет основана на исследовании Латаньи Суини 2002 года о k-анонимности [PDF], а также на предыдущих исследованиях, в которых она продемонстрировала возможность идентификации 87 процентов населения США с использованием трех анонимных точек данных — пятизначного почтового индекса, пола и даты рождения. Возможность иденти

Добавьте конфиденциальность в список потенциальных жертв, вызванных распространением ИИ, поскольку исследователи обнаружили, что большие языковые модели (LLM) могут использоваться для деанонимизации интернет-пользователей — даже тех, кто использует псевдонимы — более эффективно, чем человеческие сыщики.

Значительная часть академических работ по конфиденциальности в сети за последние 25 лет основана на исследовании Латаньи Суини 2002 года о k-анонимности [PDF], а также на предыдущих исследованиях, в которых она продемонстрировала возможность идентификации 87 процентов населения США с использованием трех анонимных точек данных — пятизначного почтового индекса, пола и даты рождения.

Возможность идентификации людей по анонимным данным стала одной из центральных проблем, связанных с онлайн-рекламой и использованием файлов cookie в веб-браузерах.

Этот риск никуда не исчез и теперь кажется еще более серьезным благодаря LLM, которые могут автоматизировать процесс соединения разрозненных данных в онлайн-публикациях так, чтобы они указывали на вероятный источник.

“Мы показываем, что агенты LLM могут выяснить, кто вы, по вашим анонимным онлайн-публикациям”, — сказал Саймон Лермен, инженер по ИИ в MATS Research и один из авторов препринта статьи под названием “Масштабная онлайн-деанонимизация с помощью LLM”.

“На материалах Hacker News, Reddit, LinkedIn и анонимизированных расшифровках интервью наш метод с высокой точностью идентифицирует пользователей — и масштабируется до десятков тысяч кандидатов”, — пояснил Лермен в онлайн-публикации.

Исследователь отмечает, что, хотя давно известно, что людей можно идентифицировать, используя всего несколько точек данных, на практике это часто было нецелесообразно. Такие данные часто существовали в неструктурированном виде, и человеческим следователям требовались значительные усилия, чтобы собрать достаточно фрагментов для решения головоломки личности.

LLM ускоряют и автоматизируют этот процесс, и делают это недорого, утверждают Лермен и его соавторы.

“Мы демонстрируем, что большие языковые модели (LLM) коренным образом меняют этот расчет, делая возможными полностью автоматизированные атаки деанонимизации, работающие с неструктурированным текстом в масштабе”, — заявляют они в своей статье. “В то время как предыдущие подходы требовали предопределенных схем признаков, тщательного согласования данных и ручной проверки, LLM могут извлекать релевантные для идентификации сигналы из произвольного текста, эффективно искать среди миллионов профилей кандидатов и делать выводы о том, принадлежат ли два аккаунта одному и тому же человеку”.

В одном эксперименте авторы собрали данные 338 пользователей Hacker News, чьи биографии содержали ссылки на профили LinkedIn. Они сделали это для установления истинных личностей испытуемых, чтобы можно было проверить прогнозы LLM — это также было сделано для избежания этических проблем фактической деанонимизации людей в рамках исследования.

Затем они создали структурированный профиль данных этих пользователей на основе их комментариев и опубликованных ими материалов. Затем они создали поисковый запрос, анонимизировали его и передали агенту ИИ. Агент затем правильно идентифицировал 226 из 338 целей, что составило 67-процентный показатель успеха при 90-процентной точности (было 25 ошибочных идентификаций и 86 случаев отказа, когда модель не давала прогноза).

Техника, используемая авторами, не является универсальным растворителем конфиденциальности — она успешна лишь от случая к случаю. Но она достаточно часто срабатывает, чтобы те, кто публикует материалы в сети под псевдонимами, не должны были полагать, что их личности останутся неизвестными.

Запуск этой техники также дешев. Исследователи сообщают, что весь их эксперимент обошелся примерно в 2000 долларов, а стоимость одного профиля оценивается от 1 до 4 долларов.

Кто бы стал этим заниматься? Авторы предполагают, что правительства могут использовать эту технику для преследования журналистов или активистов, корпорации могут анализировать форумы для создания узконаправленных рекламных профилей, а онлайн-злоумышленники могут разрабатывать подробные личные профили, чтобы сделать мошенничество с социальной инженерией более правдоподобным.

Лермен утверждает, что поэтому пользователи сети должны задуматься о том, как каждая точка данных, которой они делятся, способствует их идентификации.

“Комбинация часто представляет собой уникальный отпечаток”, — сказал он. “Спросите себя: может ли команда умных следователей выяснить, кто вы, по вашим публикациям? Если да, то агенты LLM, вероятно, могут сделать то же самое, и стоимость этого только снижается”.

Соавторами Лермена являются Даниэль Палека (ETH Zurich), Джошуа Свонсон (ETH Zurich), Михаэль Аэрни (ETH Zurich), Николас Карлини (Anthropic) и Флориан Трамер (ETH Zurich). ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Thomas Claburn

Оригинал статьи