Найти в Дзене
IT БЕЗОПАСНОСТЬ

Какие данные собирает Google, и как их выкачать?

Как известно, Гугл хранит большое количество данных о своих пользователях. Под давлением и критикой в Google создали механизм, который позволяет выкачать все свои данные. Этот сервис называется Takeout, и у него могут быть разные интересные применения, о которых мы и поговорим. А заодно детально изучим то, что он выдает на руки пользователю. Как скачать сохраненные в Google данные Итак, чтобы получить свои данные, нужно зайти по адресу takeout.google.com, выставить галочки напротив интересующих вас сервисов и подождать некоторое (ощутимое) время. По запросу полного архива, ссылка может придти более чем через 24 часа. В письме робот Google сообщает, что данные собраны и занимают энное количество Гбайт. Какие данные собирает поиск Google Истории поисковых запросов лежит в папке Searches и разбита на файлы по три месяца, к примеру 2019-01-01 January 2019 to March 2019.json. Если открыть один из них, то увидите, что информация о каждом запросе состоит из двух вещей: времени в формате

Как известно, Гугл хранит большое количество данных о своих пользователях. Под давлением и критикой в Google создали механизм, который позволяет выкачать все свои данные. Этот сервис называется Takeout, и у него могут быть разные интересные применения, о которых мы и поговорим. А заодно детально изучим то, что он выдает на руки пользователю.

Как скачать сохраненные в Google данные

Итак, чтобы получить свои данные, нужно зайти по адресу takeout.google.com, выставить галочки напротив интересующих вас сервисов и подождать некоторое (ощутимое) время. По запросу полного архива, ссылка может придти более чем через 24 часа. В письме робот Google сообщает, что данные собраны и занимают энное количество Гбайт.

Какие данные собирает поиск Google

Истории поисковых запросов лежит в папке Searches и разбита на файлы по три месяца, к примеру 2019-01-01 January 2019 to March 2019.json. Если открыть один из них, то увидите, что информация о каждом запросе состоит из двух вещей: времени в формате Unix и искомой строки.

Для перевода времени можно использовать какой-нибудь онлайн конвертер. Но подробным анализом я предлагаю вам заняться самостоятельно. Мы же забавы ради попробуем поискать вхождения тех или иных строк при помощи grep. Поскольку данные сохранены в JSON, их сначала нужно будет сконвертировать в строки — я для этого использовал утилиту gron.

Если у вас gron, можете написать что-то в таком духе:

$ for F in *; do cat "${F}" | gron | grep "test-info"; done

И увидите все свои запросы со словом test-info за все время. Занятная мысь: если поискать символ @, то вы найдете все почтовые адреса и аккаунты Twitter, которые вы пробивали через Google.

Какие данные собирает чат Google

Весь текст экспортируется как единственный файл JSON плюс горка приложенных картинок — все это лежит в папке Hangouts. С картинками никаких проблем, а вот в JSON на каждое написанное сообщение приходится порядка двух десятков строк метаданных. Главная проблема — в том, что вместо имени отправителя здесь ID пользователя.

Самое простое, что можно сделать, — это оставить только текст. По крайней мере можно увидеть какие-то обезличенные переписки

$ gron Hangouts.json | grep '.text'

Так хотя бы есть шанс что-то выловить.

Какие данные собирал Google+

Прекращена работа 02 апреля 2019 г.

Что действительно есть смысл качать — это посты из социальной сети Google+, которая стремительно становилась артефактом прошлого.

Данные поделены на три папки: Google+ Stream, Circles и Pages.

Circles — это контакты людей, организованные по «кругам» из Google Plus. Формат — vCard (VCF) с той информацией, которую люди сами о себе заполнили. Можно при желании одним махом импортировать в любую адресную книгу.

Папка Pages будет присутствовать в том случае, если у вас имелись публичные страницы. Но ничего интересного там нет, разве что юзерпик и обложка страницы.

Также к данным Google+ стоит отнести папку Profile. В ней содержится JSON с копией всех тех данных, что вы заполнили о себе в этой соцсети. Самые любопытные вещи лежат в структурах urls (ссылки на другие профили в соцсетях) и organizations (места работы с датами). Забавная деталь: при том, что у меня в профиле не указан возраст, здесь присутствует поле «ageRange»: {«min»: 21}, значение которого Google, кажется, определил самостоятельно.

Самое главное вы найдете в папке Google+ Stream. Здесь в качестве отдельных HTML свалены все ваши посты с комментариями и отдельные комментарии.

Какие данные собирает сервис Карты

Еще одна большая категория личных данных. Начнем с простого — папки MyMaps. Это маршруты, созданные вами в Google Maps, — по одному файлу KMZ на маршрут.

KMZ — это формат Google Earth, который поддерживается и в других картографических приложениях. Ну а по сути это ZIP, в котором лежит файл KML, являющийся валидным XML. Если для ваших целей это по каким-то причинам не подходит, можете воспользоваться сервисом GeoConverter и сконвертировать его, например, в GeoJSON, работать с которым немного попроще.

Папка Maps (your places) содержит один файл — Saved Places.json. В нем собраны все ваши закладки из Google Maps в виде очередной заковыристой структуры. Каждая из закладок — это элемент массива features, у которого есть заголовок, дата добавления, дата изменения и ссылка на Google Maps. А вот геокоординаты могут быть записаны по-разному: как поле geometry с массивом coordinates или как Location с полями Latitude и Longitude, но оно же (чтобы жизнь медом не казалась) может называться, например, Geo Coordinates. В общем, при желании учесть все эти особенности не слишком тяжело, но могло бы быть и попроще.

Наконец, самая занимательная папка — это Location History — файл со всей историей ваших перемещений с мобильным телефоном в кармане за все время.

Файл устроен очень просто, особенно в сравнении с другими архивами. Это огромный массив из структур, включающих в себя: время в формате Unix, широту, долготу и точность определения. Иногда к ним добавляются (вероятно, когда их удавалось определить) направление движения в градусах, высота в метрах и точность определения высоты.

Какие данные собирает Google Chrome

Папка, которая содержит всю облачную часть Google Chrome (а может быть, и не всю). Вот что в ней лежит.

  • Bookmarks.html — содержимое закладок в виде списка HTML. Распарсить его не составит труда — берем данные из a href и дели на секции по содержимому h3. Для многих закладок указано время добавления в формате Unix.
  • Dictionary.csv — здесь должны быть исключения для проверки орфографии.
  • Extensions.json — данные об установленных расширениях.
  • SearchEngines.json — данные о дополнительных поисковиках. Если вам
  • SyncSettings.json — настройки Chrome.
  • Autofill.json — данные для автоматического заполнения форм.
  • BrowserHistory.json — полный список всех сайтов, которые вы когда-либо открывал в Chrome!

Какие данные собирает сервис My Activity

Одна из самых интересных на мой взгляд папок. Пройдясь по папкам, вы своими глазами увидете, что он записывает каждые:

  • переход на сайт, аффилированный с Google Adwords;
  • книгу, открытую в Books;
  • сайт, на который вы заходил через Chrome;
  • использованный API (папка Developers);
  • котировку, открытую в Finance;
  • запрос к Goggles (поиск объектов на снимке);
  • просмотр страницы в Google Play Store;
  • обращение к справке (папка Help);
  • запрос к Image Search и переход по ссылке;
  • просмотр объекта на карте (Maps);
  • поиск в Google News и чтение статьи на сайте-источнике;
  • поисковый запрос и переход по ссылке из результатов (папка Search);
  • поиск товара или покупку в магазине (папка Shopping);
  • просмотр поездок в Google Trips;
  • поиск видео и переход из результатов (Video Search);
  • голосовой поиск (папка Voice and Audio);
  • поисковый запрос и просмотр роликов на YouTube.

в папке Voice and Audio: вы можете послушать собственный голос, который произносит фразы из серии «Окей, Гугл…».

При этом формат, в котором все это выгружается, оставляет желать много лучшего. Это снова HTML с не самой удобоваримой разметкой и 150-килобайтным куском Material Design в каждом файле. Я на скорую руку сочинил вот такой скриптик на Python, который можно закинуть в любую из папок и запустить.

Другие сервисы Google собирающие пользовательские данные

Подробно разбирать данные четырех десятков продуктов мы не будем, но вкратце все же пройдемся по оставшимся сервисам.

Сервис +1 — HTML со списком страниц, которые вы когда-либо лайкали через Google+. В моем случае — четыре случайные страницы.

Bookmarks — то же самое, но для закладок.

Calendar — пользовательские календари из Google Calendar в формате iCalendar (.ics).

Photos— в этой папке будет огромный список подкаталогов — по одному на каждый день, на который приходится один снимок. К каждому снимку прилагается JSON с метаданными.

YouTube. — История просмотров и поисков в HTML (аналог того, что мы видели в My Activity) и даже комментарии — тоже в HTML.

Classic Sites — сайты, созданные при помощи не особенно популярного сервиса Google Sites (что-то среднее между narod.ru и Wikia).

Drive — все документы из Google Drive.

Google Pay. Информация из этого сервиса разделена на две папки. Google Pay Send — список транзакций, произведенных через Google Pay и Google Pay rewards, gift cards, offers

Mail — полный архив писем Gmail.

Google My Business — номер аккаунта, имя и фамилия и пометка personal.

Contacts — адресная книга из Gmail.

G Suite Marketplace — плагины для приложений Google, которые вы выставляли в фирменный магазин.

Tasks — вот уже десять лет в глубинах Google существует сервис, предназначенный для ведения списков дел.

Выводы

Можно ли в итоге сказать, что через Takeout выдают все личные данные? Вряд ли. Отсутствуют старые сервисы, поддержка которых прекращена.

Однако, несмотря на эти недочеты, сотрудникам Google стоит сказать спасибо: редко когда разработчики сервиса тратят столько усилий на улучшение портативности данных и повышение прозрачности их сбора. В результате Takeout полезен не только для того, чтобы забрать свои вещички и скрыться с ними, но и для самой разной аналитики.