Найти в Дзене
SEBERD IT Base

[937] Какие данные о людях собирает Яндекс

Яндекс хранит историю ваших поисков, маршруты, голосовые запросы к Алисе и список всех устройств, с которых вы заходили в аккаунт. Всё это можно запросить закон обязывает отдать копию. Но интереснее другое: часть того, что система про вас знает, в эту копию не входит. Раздел находится по адресу id.yandex.ru, далее «Управление данными» и «Данные на сервисах». Там можно выбрать конкретный сервис: Алиса, Музыка, Поиск, Карты, Почта, Диск и ещё несколько десятков. Архивы заказываются по каждому сервису отдельно или сразу все. Система обязана предоставить копию собранного по запросу пользователя в соответствии с 152-ФЗ «О персональных данных». Для начала процесса нужен вход в аккаунт. Архив придёт на почту в виде ссылки для скачивания, сам файл защищён паролем, который отображается на той же странице управления данными. Без пароля архив не открыть, и нигде он автоматически не отправляется. Формат данных зависит от сервиса, используются XML, JSON и CSV. Официально срок до 30 дней. Реально в
Оглавление
Яндекс хранит историю ваших поисков, маршруты, голосовые запросы к Алисе и список всех устройств, с которых вы заходили в аккаунт. Всё это можно запросить закон обязывает отдать копию. Но интереснее другое: часть того, что система про вас знает, в эту копию не входит.
https://seberd.ru/937/
https://seberd.ru/937/

Раздел находится по адресу id.yandex.ru, далее «Управление данными» и «Данные на сервисах». Там можно выбрать конкретный сервис: Алиса, Музыка, Поиск, Карты, Почта, Диск и ещё несколько десятков. Архивы заказываются по каждому сервису отдельно или сразу все. Система обязана предоставить копию собранного по запросу пользователя в соответствии с 152-ФЗ «О персональных данных».

Для начала процесса нужен вход в аккаунт. Архив придёт на почту в виде ссылки для скачивания, сам файл защищён паролем, который отображается на той же странице управления данными. Без пароля архив не открыть, и нигде он автоматически не отправляется. Формат данных зависит от сервиса, используются XML, JSON и CSV. Официально срок до 30 дней. Реально в большинстве случаев архив приходит за несколько часов или дней. Скорость зависит от двух факторов: объёма ваших данных и текущей нагрузки на серверах Яндекса. Чем активнее вы пользовались сервисами, тем дольше.

Никаких push-уведомлений в мессенджеры не предусмотрено. Письмо приходит на почту, привязанную к аккаунту. Если архив не появился за 30 дней, обращайтесь в поддержку через форму на той же странице.

-2

В папке поисковых данных находится таблица с запросами, датами и временем. Записи идут с момента создания аккаунта. В неё попадают не только то, что вводили руками в строку поиска, но и голосовые запросы через Алису на телефоне. Проверьте: есть ли провалы в несколько месяцев? Это либо период неактивности, либо ручное удаление истории в то время. Отдельно хранится история поиска картинок и видео. Часто люди удивляются, что поисковик фиксировал не только текстовые запросы.

Геолокация с точностью до метра

В архиве Карт есть координаты точек с временными метками и указанием источника определения: GPS, Wi-Fi или сотовая сеть. Точность у этих трёх источников разная. GPS даёт несколько метров, Wi-Fi и сотовая сеть могут давать погрешность в сотни метров. Я нашёл точку у метро, где был несколько лет назад. Дата в архиве и обстоятельства, которые я помнил, совпали — у меня эти данные не удалялись. Помимо точек, хранятся маршруты и история просмотра карт: когда именно заходил на страницу сервиса. Это отдельные файлы внутри архива Карт.

Голосовые запросы Алисы и что значит поле confidence*

Голосовые данные хранятся в двух форматах одновременно. Аудиофайлы в формате OGG можно открыть в любом медиаплеере и услышать свой голос. JSON-файлы с транскрипцией содержат текст того, что система распознала. ASR (Automatic Speech Recognition, автоматическое распознавание речи) работает так: аудио уходит на сервер, там преобразуется в текст, текст возвращается вместе с метаданными.

-3

В JSON-файле транскрипции есть поле confidence. Это число от 0 до 1, показывающее вероятность того, что система правильно распознала речь. Значение 0.3 означает, что система обработала запрос, несмотря на неуверенность в результате. Такие значения появляются при плохом качестве аудио, акценте или нестандартных словах. Я открыл несколько случайных файлов из своего архива. Один просто шум кто-то говорил в соседней комнате, Алиса решила, что это ей. Транскрипция выдала что-то вроде «включи свет» при confidence 0.21. Никакого света я не просил. Второй файл я вообще не смог идентифицировать — то ли телевизор, то ли улица через окно. Записей таких оказалось неожиданно много, и я не понял, хранит ли Яндекс их намеренно или это просто побочный эффект того, как работает система активации. Ответа на этот вопрос в документации нет.

Список устройств и старые входы в аккаунт

В разделе управления сессиями хранится список устройств с датами последнего использования. Там могут быть гаджеты, которые вы уже не используете или давно продали. У меня оказался телефон с датой активности спустя месяц после продажи: либо новый владелец зашёл в мой аккаунт, либо я не завершил сессию перед передачей. Найдя такое устройство, стоит немедленно завершить все активные сессии вручную через настройки Яндекс ID.

Помимо перечисленного, Яндекс хранит историю переписки в Мессенджере, письма и контакты из Почты, файлы с Диска, историю покупок в своих сервисах, плейлисты и статистику прослушивания в Музыке, настройки сценариев Алисы.

Технически всё это лежит в отдельных папках по сервисам. Открыть JSON можно любым текстовым редактором, Блокнот в Windows справится, но без форматирования. Для удобного просмотра подойдёт редактор с подсветкой синтаксиса, например VS Code, или браузер — большинство из них умеют отображать JSON в читаемом виде.

Каждая запись содержит timestamp: время в формате Unix, число секунд, прошедших с 1 января 1970 года. Конвертировать его в обычную дату можно любым онлайн-конвертером по запросу «unix timestamp». Поле session_id связывает действия в разных сервисах, если они происходили в рамках одной авторизованной сессии. В моём архиве один идентификатор охватил поиск ресторана, просмотр маршрута на Картах и вызов такси — я смотрел на эту цепочку и думал, что сам бы её так не описал. Просто вечер, просто поехал куда-то.

Что собирает Яндекс Браузер и чего нет в архиве

Когда я начал разбираться с этим разделом, то не был уверен, стоит ли его вообще включать в статью — тема частично задокументирована, частично нет, и провести чёткую границу между тем, что точно происходит, и тем, что предположительно происходит, сложно. Оставил, потому что молчать об этом хуже. При каждом старте браузер отправляет на серверы Яндекса конфигурацию вашего устройства: версию операционной системы, разрешение экрана, установленные другие браузеры и их статус.

Исследователи фиксировали десятки подключений при первом запуске свежеустановленного браузера — до того, как пользователь совершил какое-либо действие. Отдельно уходит хешированный аппаратный идентификатор устройства, который не меняется при переустановке браузера и сохраняется даже без аккаунта. Я переустановил браузер после того, как прочитал об идентификаторе.

Каждый запрос в адресной строке «Умной строки» отправляется на серверы Яндекса для формирования подсказок в реальном времени — при каждом нажатой клавише, а не только после Enter. Это стандартная функция автодополнения, но она означает, что черновики ваших запросов тоже передаются.

Если включена синхронизация через Яндекс ID, на серверы уходят закладки, пароли в зашифрованном виде, история посещений, данные автозаполнения форм, расширения и открытые вкладки. При этом метаданные — количество сохранённых паролей, доменные имена сайтов, число закладок — передаются вне зависимости от шифрования.

Режим Турбо (ускорение при медленном соединении) пропускает весь ваш трафик через серверы Яндекса для сжатия. В этом режиме содержимое страниц, которые вы открываете, видно на стороне Яндекса.

Если вы открываете страницу с ошибкой или вводите несуществующий адрес, браузер отправляет этот адрес на сервер — чтобы предложить исправление или показать сохранённую копию. Опечатки в адресной строке тоже логируются.

Функция защиты от вредоносных сайтов при посещении подозрительных страниц отправляет часть хеша адреса для проверки по базе. Это штатная функция безопасности, но она означает, что маршруты серфинга частично проходят через серверы Яндекса даже без аккаунта.

Профиль интересов для рекламы

Яндекс строит профиль интересов каждого пользователя: набор тематических меток, которые влияют на показ рекламы. Если вы видите рекламу электроники, не искав её в поиске, значит, система отнесла вас к нужному сегменту на основании других сигналов. Этот профиль в архив не попадает. Он не хранится как статичная запись, а пересчитывается динамически и живёт в рекламной инфраструктуре отдельно от истории сервисов.

Косвенно проверить профиль можно через рекламные настройки в Яндекс ID, но там видна только часть меток, которую компания решила показывать пользователям.

Данные с чужих сайтов через Метрику

Яндекс.Метрика счётчик, который устанавливают владельцы сайтов для аналитики посещаемости. Когда вы заходите на сайт с таким счётчиком, Яндекс получает данные о вашем поведении там: какие страницы смотрели, сколько времени провели, куда кликали. Происходит это независимо от того, авторизованы вы в аккаунте или нет.

Технически эти данные принадлежат владельцу сайта, а не вашему аккаунту. Поэтому в личный архив они не входят. Но они используются при формировании рекламных аудиторий: посетители определённых категорий сайтов попадают в сегменты для таргетинга. Архив эту связку не раскрывает.

https://seberd.ru/937/
https://seberd.ru/937/

Самая важная часть того, что система знает о вас, скрыта не в сырых записях, а в том, чему алгоритмы на этих записях обучились. Рекомендательные системы, ранжирование поиска под конкретного пользователя, предсказание намерений — всё это работает на основе обученных нейросетей. Такие сети не хранят персональные данные каждого человека отдельно. Они встраивают паттерны поведения в общие веса модели, обученной на миллионах пользователей.

Удалить исходные данные возможно. Но откатить обучение модели нельзя. Архив показывает то, что собрано. Не то, что из этого вычислено.

Как работает удаление данных на самом деле

В настройках Яндекс ID данные удаляются по каждому сервису отдельно: история поисков, геолокация, голосовые записи, переписка. После удаления запись в архиве помечается техническим статусом, но физически остаётся в файле — метка для системы, а не немедленное исчезновение из хранилища. Физическое уничтожение записей происходит по внутреннему регламенту, который публично не раскрывается. Для файлов, например на Диске, удаление обычно происходит быстрее — эти данные принадлежат вам и хранятся иначе, чем логи поведения. Яндекс упоминает хранение анонимизированных копий для статистики после удаления. Что именно анонимизируется и каким алгоритмом, в публичных документах не описано.

Я удалил историю запросов по конкретной теме. Реклама по той же теме продолжила показываться ещё несколько недель. Объяснение простое: профиль интересов уже был сформирован, и удаление исходных запросов его не обнулило. Профиль живёт отдельно от истории.

152-ФЗ «О персональных данных» обязывает операторов предоставлять субъекту данных копию его персональных данных по запросу. Это право прямо прописано в законе. Яндекс выполняет это требование.

Яндекс — не алгоритм. Это несколько тысяч человек, у которых есть доступ к инфраструктуре. Аналитики смотрят на агрегированные данные, разработчики отлаживают модели на реальных запросах, модераторы проверяют контент. Никто из них не читает вашу переписку специально — но технически данные доступны людям, а не только машинам.

Архив не инструмент контроля над своими данными. Он подтверждает, что данные есть и сбор ведётся. Это разрешённая зона: вам показывают то, что закон обязывает показывать. Всё остальное — профили, модели, поведенческие паттерны, данные о ваших действиях на чужих сайтах, телеметрия браузера — остаётся за пределами этой зоны.

Что бы понять, что с этим делать нужно представить, как выглядела бы жизнь без таких технологий.

#информационнаябезопасность #конфиденциальность #защитаданных #технологии #полезное #кибербезопасность #безопасностьонлайн