Как известно, Гугл хранит большое количество данных о своих пользователях. Под давлением и критикой в Google создали механизм, который позволяет выкачать все свои данные. Этот сервис называется Takeout, и у него могут быть разные интересные применения, о которых мы и поговорим. А заодно детально изучим то, что он выдает на руки пользователю.
Как скачать сохраненные в Google данные
Итак, чтобы получить свои данные, нужно зайти по адресу takeout.google.com, выставить галочки напротив интересующих вас сервисов и подождать некоторое (ощутимое) время. По запросу полного архива, ссылка может придти более чем через 24 часа. В письме робот Google сообщает, что данные собраны и занимают энное количество Гбайт.
Какие данные собирает поиск Google
Истории поисковых запросов лежит в папке Searches и разбита на файлы по три месяца, к примеру 2019-01-01 January 2019 to March 2019.json. Если открыть один из них, то увидите, что информация о каждом запросе состоит из двух вещей: времени в формате Unix и искомой строки.
Для перевода времени можно использовать какой-нибудь онлайн конвертер. Но подробным анализом я предлагаю вам заняться самостоятельно. Мы же забавы ради попробуем поискать вхождения тех или иных строк при помощи grep. Поскольку данные сохранены в JSON, их сначала нужно будет сконвертировать в строки — я для этого использовал утилиту gron.
Если у вас gron, можете написать что-то в таком духе:
$ for F in *; do cat "${F}" | gron | grep "test-info"; done
И увидите все свои запросы со словом test-info за все время. Занятная мысь: если поискать символ @, то вы найдете все почтовые адреса и аккаунты Twitter, которые вы пробивали через Google.
Какие данные собирает чат Google
Весь текст экспортируется как единственный файл JSON плюс горка приложенных картинок — все это лежит в папке Hangouts. С картинками никаких проблем, а вот в JSON на каждое написанное сообщение приходится порядка двух десятков строк метаданных. Главная проблема — в том, что вместо имени отправителя здесь ID пользователя.
Самое простое, что можно сделать, — это оставить только текст. По крайней мере можно увидеть какие-то обезличенные переписки
$ gron Hangouts.json | grep '.text'
Так хотя бы есть шанс что-то выловить.
Какие данные собирал Google+
Прекращена работа 02 апреля 2019 г.
Что действительно есть смысл качать — это посты из социальной сети Google+, которая стремительно становилась артефактом прошлого.
Данные поделены на три папки: Google+ Stream, Circles и Pages.
Circles — это контакты людей, организованные по «кругам» из Google Plus. Формат — vCard (VCF) с той информацией, которую люди сами о себе заполнили. Можно при желании одним махом импортировать в любую адресную книгу.
Папка Pages будет присутствовать в том случае, если у вас имелись публичные страницы. Но ничего интересного там нет, разве что юзерпик и обложка страницы.
Также к данным Google+ стоит отнести папку Profile. В ней содержится JSON с копией всех тех данных, что вы заполнили о себе в этой соцсети. Самые любопытные вещи лежат в структурах urls (ссылки на другие профили в соцсетях) и organizations (места работы с датами). Забавная деталь: при том, что у меня в профиле не указан возраст, здесь присутствует поле «ageRange»: {«min»: 21}, значение которого Google, кажется, определил самостоятельно.
Самое главное вы найдете в папке Google+ Stream. Здесь в качестве отдельных HTML свалены все ваши посты с комментариями и отдельные комментарии.
Какие данные собирает сервис Карты
Еще одна большая категория личных данных. Начнем с простого — папки MyMaps. Это маршруты, созданные вами в Google Maps, — по одному файлу KMZ на маршрут.
KMZ — это формат Google Earth, который поддерживается и в других картографических приложениях. Ну а по сути это ZIP, в котором лежит файл KML, являющийся валидным XML. Если для ваших целей это по каким-то причинам не подходит, можете воспользоваться сервисом GeoConverter и сконвертировать его, например, в GeoJSON, работать с которым немного попроще.
Папка Maps (your places) содержит один файл — Saved Places.json. В нем собраны все ваши закладки из Google Maps в виде очередной заковыристой структуры. Каждая из закладок — это элемент массива features, у которого есть заголовок, дата добавления, дата изменения и ссылка на Google Maps. А вот геокоординаты могут быть записаны по-разному: как поле geometry с массивом coordinates или как Location с полями Latitude и Longitude, но оно же (чтобы жизнь медом не казалась) может называться, например, Geo Coordinates. В общем, при желании учесть все эти особенности не слишком тяжело, но могло бы быть и попроще.
Наконец, самая занимательная папка — это Location History — файл со всей историей ваших перемещений с мобильным телефоном в кармане за все время.
Файл устроен очень просто, особенно в сравнении с другими архивами. Это огромный массив из структур, включающих в себя: время в формате Unix, широту, долготу и точность определения. Иногда к ним добавляются (вероятно, когда их удавалось определить) направление движения в градусах, высота в метрах и точность определения высоты.
Какие данные собирает Google Chrome
Папка, которая содержит всю облачную часть Google Chrome (а может быть, и не всю). Вот что в ней лежит.
- Bookmarks.html — содержимое закладок в виде списка HTML. Распарсить его не составит труда — берем данные из a href и дели на секции по содержимому h3. Для многих закладок указано время добавления в формате Unix.
- Dictionary.csv — здесь должны быть исключения для проверки орфографии.
- Extensions.json — данные об установленных расширениях.
- SearchEngines.json — данные о дополнительных поисковиках. Если вам
- SyncSettings.json — настройки Chrome.
- Autofill.json — данные для автоматического заполнения форм.
- BrowserHistory.json — полный список всех сайтов, которые вы когда-либо открывал в Chrome!
Какие данные собирает сервис My Activity
Одна из самых интересных на мой взгляд папок. Пройдясь по папкам, вы своими глазами увидете, что он записывает каждые:
- переход на сайт, аффилированный с Google Adwords;
- книгу, открытую в Books;
- сайт, на который вы заходил через Chrome;
- использованный API (папка Developers);
- котировку, открытую в Finance;
- запрос к Goggles (поиск объектов на снимке);
- просмотр страницы в Google Play Store;
- обращение к справке (папка Help);
- запрос к Image Search и переход по ссылке;
- просмотр объекта на карте (Maps);
- поиск в Google News и чтение статьи на сайте-источнике;
- поисковый запрос и переход по ссылке из результатов (папка Search);
- поиск товара или покупку в магазине (папка Shopping);
- просмотр поездок в Google Trips;
- поиск видео и переход из результатов (Video Search);
- голосовой поиск (папка Voice and Audio);
- поисковый запрос и просмотр роликов на YouTube.
в папке Voice and Audio: вы можете послушать собственный голос, который произносит фразы из серии «Окей, Гугл…».
При этом формат, в котором все это выгружается, оставляет желать много лучшего. Это снова HTML с не самой удобоваримой разметкой и 150-килобайтным куском Material Design в каждом файле. Я на скорую руку сочинил вот такой скриптик на Python, который можно закинуть в любую из папок и запустить.
Другие сервисы Google собирающие пользовательские данные
Подробно разбирать данные четырех десятков продуктов мы не будем, но вкратце все же пройдемся по оставшимся сервисам.
Сервис +1 — HTML со списком страниц, которые вы когда-либо лайкали через Google+. В моем случае — четыре случайные страницы.
Bookmarks — то же самое, но для закладок.
Calendar — пользовательские календари из Google Calendar в формате iCalendar (.ics).
Photos— в этой папке будет огромный список подкаталогов — по одному на каждый день, на который приходится один снимок. К каждому снимку прилагается JSON с метаданными.
YouTube. — История просмотров и поисков в HTML (аналог того, что мы видели в My Activity) и даже комментарии — тоже в HTML.
Classic Sites — сайты, созданные при помощи не особенно популярного сервиса Google Sites (что-то среднее между narod.ru и Wikia).
Drive — все документы из Google Drive.
Google Pay. Информация из этого сервиса разделена на две папки. Google Pay Send — список транзакций, произведенных через Google Pay и Google Pay rewards, gift cards, offers
Mail — полный архив писем Gmail.
Google My Business — номер аккаунта, имя и фамилия и пометка personal.
Contacts — адресная книга из Gmail.
G Suite Marketplace — плагины для приложений Google, которые вы выставляли в фирменный магазин.
Tasks — вот уже десять лет в глубинах Google существует сервис, предназначенный для ведения списков дел.
Выводы
Можно ли в итоге сказать, что через Takeout выдают все личные данные? Вряд ли. Отсутствуют старые сервисы, поддержка которых прекращена.
Однако, несмотря на эти недочеты, сотрудникам Google стоит сказать спасибо: редко когда разработчики сервиса тратят столько усилий на улучшение портативности данных и повышение прозрачности их сбора. В результате Takeout полезен не только для того, чтобы забрать свои вещички и скрыться с ними, но и для самой разной аналитики.