Найти в Дзене

Тестирование международных данных об интернет-соединении. Брать или не брать

На днях потестировала один международный источник геоданных, который увидел в телеграм-канале Ивана Бегтина. Источник описан как ресурс, по которому можно судить об экономическом развитии регионов. Конечно, мне стало интересно его протестировать. Называется Measurement Lab.  Что за данные Measurement Lab (M-Lab) предоставляет данные для анализа качества интернет-соединений по всему миру . Эти данные собираются с различных тестов, таких как Network Diagnostic Tool (NDT), Neubot DASH и Reverse Traceroute. Я не очень разбираюсь в нюансах диагностики интернет-соединений, но это и не нужно - главное, что любой тест включает показатель скорости соединения и локацию интернет - провайдера ( широту и долготу).А значит, по этим данным можно диверсифицировать регионы по их экономическому развитию- более быстрое соединение будет соответствовать более богатым районам, более медленное - более бедным Как получить доступ к данным Данные доступны в двух форматах: сырые данные на Google Cloud Storage и

На днях потестировала один международный источник геоданных, который увидел в телеграм-канале Ивана Бегтина. Источник описан как ресурс, по которому можно судить об экономическом развитии регионов.

Конечно, мне стало интересно его протестировать. Называется Measurement Lab

Что за данные

Measurement Lab (M-Lab) предоставляет данные для анализа качества интернет-соединений по всему миру . Эти данные собираются с различных тестов, таких как Network Diagnostic Tool (NDT), Neubot DASH и Reverse Traceroute. Я не очень разбираюсь в нюансах диагностики интернет-соединений, но это и не нужно - главное, что любой тест включает показатель скорости соединения и локацию интернет - провайдера ( широту и долготу).А значит, по этим данным можно диверсифицировать регионы по их экономическому развитию- более быстрое соединение будет соответствовать более богатым районам, более медленное - более бедным

Как получить доступ к данным

Данные доступны в двух форматах: сырые данные на Google Cloud Storage и обработанные данные на Google BigQuery. Для анализа достаточно Google BigQuery. 

Для работы с хранилищем нужно завести аккаунт, подписаться на группу Measurement Lab в gmail. Все доступно бесплатно - единственное, с бесплатным аккаунтом в Google Clouds вы будете ограничены в количестве запросов в день.

Подробную инструкцию как получить доступ можно найти тут https://www.measurementlab.net/data/docs/bq/quickstart/

После того как доступ получен перед вами будет следующий список датасетов:

В нем вам нужен датасет ndt - он содержит агрегированную информацию о тестах с помощью Network Diagnostic Tool. И там выбираете таблицу 'unified_downloads'

Подробную информацию с описанием полей в датасете ndt можно найти здесь: https://www.measurementlab.net/tests/ndt/#unified-views

Пример запросов

Пример запроса как посмотреть кол-во тестов по странам за 19 июля 2024 года:

"

SELECT client.Geo.CountryName, count(*)

FROM `measurement-lab.ndt.unified_downloads`

WHERE date = PARSE_DATE('%d.%m.%Y','19.07.2024' ) 

GROUP BY client.Geo.CountryName

"

Как видите, лидируют Индия и США - по ним самое большое количество тестов, что коррелирует с населением. 

-2

Но здесь есть нюанс. Как я уже писала геолокация привязанная к тесту - это не локация домохозяйства, а локация интернет -провайдера. А их сильно меньше. Поэтому с точки зрения гранулярности верно смотреть так:

"

SELECT client.Geo.CountryName, count(distinct CONCAT(client.Geo.Latitude,client.Geo.Longitude ))

FROM `measurement-lab.ndt.unified_downloads`

WHERE date = PARSE_DATE('%d.%m.%Y','19.07.2024' ) 

GROUP BY client.Geo.CountryName

"

-3

И тогда результаты не такие радужные. Понятно, что это статистика всего лишь за 1 день, даже так понятно, что уровень агрегации очень высокий.Вероятно, страны с меньше, чем 1000 локациями будут мало информативны, но зависит от специфики страны.

-4

Например, вот так выглядит месяц данных для острова Ява в Индонезии. Здесь 1618 локаций, на каждую рассчитана средняя скорость скачивания. Как видите, данные содержат информацию только для крупных городов, и при этом 75% локаций находятся в Джакарте. Для нашего проекта такая гранулярность не подошла.

-5

В чем проблема и можно ли ее решить

 Дело в том, что геолокация клиента определяется по его IP адресу. У самого Measurement Lab знание о геопривязке IP нет, но они берут эти данные у Max Mind. И похоже, что а) качество данных у них варьируется между странами и б) недавно данные убрали из публичного поля. То есть теперь их нужно покупать. Я не знаю какие отношения у Measurement Lab и Max Mind сейчас, но возможно, они отдают не все данные. По крайней мере, вы можете сами это проверить для вашего региона: взять IP из таблицы Measurement Lab и сделать тестовый запрос координат на сайте Max Mind.

Думаю, что если купить у Max Mind данные и сджойнить с данными тестов результаты будут намного лучше.

P.S. мы пока отложили тестирование ресурса, но если вы захотите попробовать, и у вас получатся интересные результаты, обязательно пишите в комментариях.

Инструменты для этого мы даем на курсе «Основы пространственного анализа в Python”. Присоединяйтесь!

Есть стартовый период за смешную цену, чтобы вы попробовали и узнали, интересна вам вся эта тема или нет.