Самые странные утечки ChatGPT: в инструменте Google Analytics обнаружены подозрительные журналы чатов пользователей

12 января12 янв

7 мин

В течение нескольких месяцев чрезвычайно личные и конфиденциальные разговоры в ChatGPT попадали в неожиданное место: в Google Search Console (GSC) — инструмент, который разработчики обычно используют для отслеживания поискового трафика, а не для слежки за приватными чатами. Обычно, когда администраторы сайтов заходят в отчёты об эффективности GSC, они видят запросы, основанные на ключевых словах или коротких фразах, которые интернет-пользователи вводят в Google, чтобы найти нужный контент. Но начиная с сентября этого года в GSC можно было найти и необычные запросы, иногда длиной более 300 символов. Судя по пользовательскому вводу, эти чаты были созданы людьми, которые неосознанно просили чат-бота помочь решить проблемы в отношениях или бизнесе и, вероятно, рассчитывали, что эти разговоры останутся конфиденциальными. Джейсон Пэкер, владелец консалтинговой фирмы Quantable, специализирующейся на аналитике, одним из первых обратил внимание на эту проблему в своём подробном блоге в прошлом

Оглавление

«Страннее», чем предыдущие утечки ChatGPT
Ответ OpenAI оставил у пользователей «неразрешённые вопросы»

Обычно, когда администраторы сайтов заходят в отчёты об эффективности GSC, они видят запросы, основанные на ключевых словах или коротких фразах, которые интернет-пользователи вводят в Google, чтобы найти нужный контент. Но начиная с сентября этого года в GSC можно было найти и необычные запросы, иногда длиной более 300 символов. Судя по пользовательскому вводу, эти чаты были созданы людьми, которые неосознанно просили чат-бота помочь решить проблемы в отношениях или бизнесе и, вероятно, рассчитывали, что эти разговоры останутся конфиденциальными.

Джейсон Пэкер, владелец консалтинговой фирмы Quantable, специализирующейся на аналитике, одним из первых обратил внимание на эту проблему в своём подробном блоге в прошлом месяце.

Преисполненный решимости выяснить, что именно стало причиной утечек, он объединил усилия с «интернет-сыщиком» и консультантом по веб-оптимизации Слободаном Маничем. Вместе они провели тестирование, которое, по их мнению, могло стать «первым неопровержимым доказательством того, что OpenAI напрямую извлекает данные из Google Search с помощью реальных пользовательских запросов». Их расследование, похоже, подтвердило, что гигант в сфере ИИ нарушает конфиденциальность пользователей, в некоторых случаях для поддержания вовлечённости перехватывая поисковые данные, которыми Google в противном случае не стал бы делиться.

Компания OpenAI отклонила запрос Ars о подтверждении правильности теории Пакера и Манича, изложенной в их блоге, или об ответе на оставшиеся у них вопросы, которые могли бы помочь пользователям определить масштаб проблемы.

Однако представитель OpenAI подтвердил, что компания «знала» об этой проблеме и с тех пор «устранила» сбой, «который временно влиял на маршрутизацию небольшого количества поисковых запросов».

Пэкер сказал изданию Ars, что он «очень рад, что OpenAI смогла быстро решить проблему». Однако он предположил, что ответ OpenAI не подтвердил, занималась ли компания парсингом Google, и это оставляет сомнения в том, что проблема была полностью решена.

Google отказался от комментариев.

«Страннее», чем предыдущие утечки ChatGPT

Первым странным запросом ChatGPT, появившимся в GSC, который изучил Пэкер, был безумный поток сознания от, вероятно, женщины-пользователя, которая просила ChatGPT оценить определённое поведение, чтобы помочь ей понять, испытывает ли к ней чувства парень, который её дразнит. Другой странный запрос, похоже, поступил от офис-менеджера, который делился деловой информацией, планируя объявление о возвращении в офис.

Это были всего лишь два из 200 с лишним запросов — в том числе «довольно безумных», как сказал Пакер в интервью Ars, — которые он просмотрел только на одном сайте. В своём блоге Пакер пришёл к выводу, что эти запросы должны служить «напоминанием о том, что подсказки не так конфиденциальны, как вам кажется!»

Пэкер предположил, что эти запросы были связаны с публикацией The Information в августе, в которой цитировались источники, утверждающие, что OpenAI извлекает результаты поиска Google для формирования ответов ChatGPT. Источники утверждали, что OpenAI использует Google для ответов на запросы ChatGPT, содержащие информацию о текущих событиях, например о новостях или спорте.

Компания OpenAI не подтвердила, что собирает данные со страниц результатов поисковой системы Google (SERP). Однако Пэкер считает, что его тестирование утечек ChatGPT может служить доказательством того, что OpenAI не только собирает «данные с SERP в целом», но и отправляет запросы пользователей в поисковую систему Google.

Манич помог Пакеру разгадать большую часть загадки. Он обнаружил, что странные запросы появлялись в GSC одного сайта, потому что он занимал высокие позиции в поиске Google по запросу «https://openai.com/index/chatgpt/» — URL-адресу ChatGPT, который добавлялся в начало каждого странного запроса, появлявшегося в GSC.

Похоже, что Google токенизировал URL-адрес, разбив его на части для поиска по ключевым словам «openai + index + chatgpt». Таким образом, Паркер и Манич предположили, что сайты, использующие GSC и занимающие высокие позиции по этим ключевым словам, скорее всего, столкнутся с утечками ChatGPT, в том числе сайты, которые освещали предыдущие утечки ChatGPT, где чаты индексировались в результатах поиска Google. Используя их рекомендации для поиска запросов в GSC, Ars смогла найти похожие строки.

«Но не стоит заблуждаться: это новая и совершенно иная проблема ChatGPT, нежели та, что связана с индексацией Google материалов, которые мы не хотим видеть, — написал Пакер. — Это ещё более странно, если не так серьёзно».

Неясно, что именно исправила компания OpenAI, но у Пакера и Манича есть теория об одном из возможных путей утечки данных из чатов. При переходе по URL-адресу, с которого начинается каждый странный запрос, найденный в GSC, пользователи ChatGPT сталкиваются с окном ввода, которое работает некорректно и «добавляет URL-адрес этой страницы в запрос». По их словам, проблема заключалась в следующем:

Обычно ChatGPT 5 выполняет веб-поиск, когда считает, что это необходимо, и чаще всего делает это при поиске по эзотерическим темам или темам, требующим актуальности. Но в этом окне с ошибкой также указан параметр запроса «hints=search», из-за которого поиск выполняется практически всегда: https://chatgpt.com/?hints=search&openaicom_referred=true&model=gpt-5

Очевидно, что некоторые из этих поисковых запросов выполнялись через Google, говорится в блоге Пакера. Поисковая система по ошибке отправляла в GSC «все, что» пользователь вводил в поле запроса, добавляя в начале текст «https://openai.com/index/chatgpt/». Как объяснил Пакер, «мы знаем, что он, скорее всего, извлекал эти данные, а не использовал API или какое-то другое частное соединение, потому что эти другие варианты не отображаются в GSC».

Это означает, что «OpenAI передаёт любую подсказку, требующую поиска в Google, как Google, так и тем, кто занимается парсингом», — утверждает Пакер. «А также тому, чей сайт появляется в результатах поиска! Ого».

По мнению Пакера, за последние два месяца «все запросы к ChatGPT», в которых использовался поиск Google, могли быть раскрыты.

В OpenAI заявили, что утечка затронула лишь небольшое количество запросов, но отказались предоставить более точную оценку. Таким образом, остаётся неясным, у скольких из 700 миллионов человек, которые еженедельно пользуются ChatGPT, запросы перенаправлялись в GSC.

Ответ OpenAI оставил у пользователей «неразрешённые вопросы»

После того как в августе в поисковом индексе Google были обнаружены запросы к ChatGPT, OpenAI пояснила, что пользователи поставили галочку, сделав эти запросы общедоступными, что OpenAI назвала «достаточно ясным». Позже компания, занимающаяся искусственным интеллектом, поспешила удалить эти чаты из поисковой выдачи Google, когда стало очевидно, что пользователи были введены в заблуждение и поделились личными чатами публично.

Пэкер рассказал Ars, что основное различие между этими утечками и утечками из GSC заключается в том, что пользователи, пострадавшие от предыдущего скандала, по крайней мере на каком-то уровне, «должны были активно делиться» своими утечками. В более недавнем случае «никто не нажимал кнопку «Поделиться» и не имел возможности предотвратить раскрытие своих чатов.

«Неужели OpenAI так торопилась, что не подумала о последствиях для конфиденциальности, или им просто было всё равно?» — написал Пакер в своём блоге.

Возможно, больше всего беспокоит некоторых пользователей — чьи личности не связаны в чатах, если только их запросы не содержат идентифицирующую информацию, — то, что, в отличие от предыдущего скандала, нет никакого способа удалить утечку чатов из GSC.

У Пакера и Манича остались «неразрешённые вопросы» о том, насколько далеко зайдёт OpenAI в устранении этой проблемы.

Манич надеялся, что OpenAI подтвердит, что запросы, введённые на https://chatgpt.com и запускающие поиск в Google, также были затронуты. Но OpenAI не ответила ни на этот вопрос, ни на более широкий вопрос о масштабах утечки. Манич был серьёзно обеспокоен тем, что парсинг OpenAI может «способствовать эффекту крокодильего рта в Google Search Console» — тревожной тенденции, на которую обратили внимание SEO-исследователи. Из-за неё количество показов резко возрастает, а количество кликов снижается.

OpenAI также отказалась прояснить главный вопрос, который волновал Пакера. Он так и не понял, привело ли «исправление» компании к тому, что OpenAI «перестала направлять поисковые запросы, то есть необработанные запросы больше не отправляются в Google Search, или же они вообще перестали собирать данные из Google Search?

«Мы до сих пор не знаем, связана ли эта ошибка с конкретной страницей или она действительно широко распространена, — сказал Пакер в интервью Ars. — В любом случае это серьёзная проблема, которая показывает, насколько OpenAI пренебрегает осторожностью, когда дело касается конфиденциальности».