Исследователи показали, что большие языковые модели (LLM) могут деанонимизировать пользователей сети, даже тех, кто использует псевдонимы, с высокой точностью. Выясните, что это значит для вашей конфиденциальности в интернете. Вы обнаружите, что в наши дни негде спрятаться. — theregister.com
Добавьте конфиденциальность в список потенциальных жертв, вызванных распространением ИИ, поскольку исследователи обнаружили, что большие языковые модели (LLM) могут использоваться для деанонимизации интернет-пользователей — даже тех, кто использует псевдонимы — более эффективно, чем человеческие сыщики.
Значительная часть академических работ по конфиденциальности в сети за последние 25 лет основана на исследовании Латаньи Суини 2002 года о k-анонимности [PDF], а также на предыдущих исследованиях, в которых она продемонстрировала возможность идентификации 87 процентов населения США с использованием трех анонимных точек данных — пятизначного почтового индекса, пола и даты рождения.
Возможность идентификации людей по анонимным данным стала одной из центральных проблем, связанных с онлайн-рекламой и использованием файлов cookie в веб-браузерах.
Этот риск никуда не исчез и теперь кажется еще более серьезным благодаря LLM, которые могут автоматизировать процесс соединения разрозненных данных в онлайн-публикациях так, чтобы они указывали на вероятный источник.
“Мы показываем, что агенты LLM могут выяснить, кто вы, по вашим анонимным онлайн-публикациям”, — сказал Саймон Лермен, инженер по ИИ в MATS Research и один из авторов препринта статьи под названием “Масштабная онлайн-деанонимизация с помощью LLM”.
“На материалах Hacker News, Reddit, LinkedIn и анонимизированных расшифровках интервью наш метод с высокой точностью идентифицирует пользователей — и масштабируется до десятков тысяч кандидатов”, — пояснил Лермен в онлайн-публикации.
Исследователь отмечает, что, хотя давно известно, что людей можно идентифицировать, используя всего несколько точек данных, на практике это часто было нецелесообразно. Такие данные часто существовали в неструктурированном виде, и человеческим следователям требовались значительные усилия, чтобы собрать достаточно фрагментов для решения головоломки личности.
LLM ускоряют и автоматизируют этот процесс, и делают это недорого, утверждают Лермен и его соавторы.
“Мы демонстрируем, что большие языковые модели (LLM) коренным образом меняют этот расчет, делая возможными полностью автоматизированные атаки деанонимизации, работающие с неструктурированным текстом в масштабе”, — заявляют они в своей статье. “В то время как предыдущие подходы требовали предопределенных схем признаков, тщательного согласования данных и ручной проверки, LLM могут извлекать релевантные для идентификации сигналы из произвольного текста, эффективно искать среди миллионов профилей кандидатов и делать выводы о том, принадлежат ли два аккаунта одному и тому же человеку”.
В одном эксперименте авторы собрали данные 338 пользователей Hacker News, чьи биографии содержали ссылки на профили LinkedIn. Они сделали это для установления истинных личностей испытуемых, чтобы можно было проверить прогнозы LLM — это также было сделано для избежания этических проблем фактической деанонимизации людей в рамках исследования.
Затем они создали структурированный профиль данных этих пользователей на основе их комментариев и опубликованных ими материалов. Затем они создали поисковый запрос, анонимизировали его и передали агенту ИИ. Агент затем правильно идентифицировал 226 из 338 целей, что составило 67-процентный показатель успеха при 90-процентной точности (было 25 ошибочных идентификаций и 86 случаев отказа, когда модель не давала прогноза).
Техника, используемая авторами, не является универсальным растворителем конфиденциальности — она успешна лишь от случая к случаю. Но она достаточно часто срабатывает, чтобы те, кто публикует материалы в сети под псевдонимами, не должны были полагать, что их личности останутся неизвестными.
Запуск этой техники также дешев. Исследователи сообщают, что весь их эксперимент обошелся примерно в 2000 долларов, а стоимость одного профиля оценивается от 1 до 4 долларов.
Кто бы стал этим заниматься? Авторы предполагают, что правительства могут использовать эту технику для преследования журналистов или активистов, корпорации могут анализировать форумы для создания узконаправленных рекламных профилей, а онлайн-злоумышленники могут разрабатывать подробные личные профили, чтобы сделать мошенничество с социальной инженерией более правдоподобным.
Лермен утверждает, что поэтому пользователи сети должны задуматься о том, как каждая точка данных, которой они делятся, способствует их идентификации.
“Комбинация часто представляет собой уникальный отпечаток”, — сказал он. “Спросите себя: может ли команда умных следователей выяснить, кто вы, по вашим публикациям? Если да, то агенты LLM, вероятно, могут сделать то же самое, и стоимость этого только снижается”.
Соавторами Лермена являются Даниэль Палека (ETH Zurich), Джошуа Свонсон (ETH Zurich), Михаэль Аэрни (ETH Zurich), Николас Карлини (Anthropic) и Флориан Трамер (ETH Zurich). ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn