Найти в Дзене
Тестирование международных данных об интернет-соединении. Брать или не брать
На днях потестировала один международный источник геоданных, который увидел в телеграм-канале Ивана Бегтина. Источник описан как ресурс, по которому можно судить об экономическом развитии регионов. Конечно, мне стало интересно его протестировать. Называется Measurement Lab.  Что за данные Measurement Lab (M-Lab) предоставляет данные для анализа качества интернет-соединений по всему миру . Эти данные собираются с различных тестов, таких как Network Diagnostic Tool (NDT), Neubot DASH и Reverse Traceroute...
2 недели назад
Зачем городам данные музеев
Учась в магистратуре в ВШЭ, я писала дипломную работу о системном подходе к оценке уровня зрелости работы музеев данными. Позже, в магистратуре Глазго, я исследовала роль музеев в развитии городских районов и в том числе делала оценку вклада музейных данных в управление городами в городское развитии. К сожалению, вклад пока, скорее, потенциальный, поскольку реальных примеров взаимодействия города и музеев с точки зрения обмена данными, я нашла немного. Но даже потенциально я вижу несколько историй, в которых данные музеев могут быть полезны городу. Здесь первая из них - управление опытом туристов...
2 недели назад
Как удаленка может повлиять на экономику городских районов
Disclaimer: пост основан на исследовательской гипотезе, проверяемой в рамках PhD работы в Еврейском университете. Гипотеза может быть как принята, так и отклонена - здесь описаны ее предпосылки.  С началом Covid гибридный график и его крайняя степень - удаленка - стали популярным сценарием работы офисных сотрудников во многих странах мира. Хотя от общего числа работоспособного населения процент удаленщиков сравнительно небольшой - 14% в целом, 22% в столицах (источник) с точки зрения вклада этих людей в городскую экономику, изменения могут быть значительными...
3 недели назад
Большие данные на маленьком компьютере
В плане работы с большими данными я всегда была везунчиком - мне никогда не приходилось переживать, что датасет не влезает в память. Мне либо давали уже очищенные и предагрегированные данные адекватного размера или на работе был сервер с мощностью достаточной для хранения и обработки файлов в 20 млн строк. Но тут случилось PhD, которое поставило передо мной задачу обработки мобильных сигналов, собранных за 4 года. Для понимания объем каждого квартала около 100 млн строк. Тем временем оперативная...
3 недели назад
Как считать время в пути на общественном транспорте
Я обычно не работаю с данными общественного транспорта: таких задач нет на работе, и у меня на курсе нет такого раздела. Люди, кто занимается расписаниями и оптимизацией маршрутов, - боги из другого мира. Но так случилось, что PhD потребовало от меня разобраться, и достаточно быстро, в этой области и посчитать среднее время на общественном транспорте между районами. Поэтому этот пост для тех, кто как и я, не занимается транспортом на ежедневной основе, но кому вдруг нужно быстро посчитать показатель с ним связанный...
4 недели назад
Матрицы связности (часть 2)
В этом посте я продолжаю писать про матрицы связности. Читая много последнее время про модели миграции и пространственного экономического анализа, я пришла к мысли, что, по сути своей, матрицы связности и матрицы корреспондеций (OD matrix) - это одно и то же. Почему? Матрицы связности отвечают на вопрос "кто на кого влияет и в какой степени", например как взаимосвязаны между собой экономки городов Московской области. OD матрица используется для отображения потока перемещений между двумя локациями, например, размер коммьюта из Раменок в центр Москвы...
1 месяц назад
Матрицы связности или при чем тут соседи
Этот пост про базовый компонент пространственного анализа - Connectivity Matrix ( Матрица связности) - W. Пост навеян недавним открытием. Два дня назад я с удивлением обнаружила, что большинство моих коллег,которые занимаются геоанализом уже 4 года, не знают про пространственные матрицы связности. Правда, поразмыслив над этим, я поняла почему. Но обо всем по-порядку. Какая у вашего друга машина? Представьте, что вы идете в гости к вашему другу, который живет в многоквартирном доме.Он недавно купил машину и предлагает вам угадать, какая это машина...
1 месяц назад
Кластеризация в пространственных задачах, когда работают классические методы
Кластеризация - это один из моих любимых подходов к анализу пространственных данных. Разнообразие возможностей применения и легкая интерпретируемость результатов делают его  одним из ключевых инструментов в арсенале пространственного аналитика. Но обо все по-порядку - начнем с основы. Кластеризация - это алгоритм разметки данных без учителя. Это означает, что заранее неизвестно из кого состоит выборка, и задача алгоритма найти в ней уникальные профили. Классическим использованием кластеризации является...
1 месяц назад
Наивные ошибки дата сайнтиста
Этот пост про процесс, совершенные ошибки и выученные уроки. Возможно, он поможет вам не наткнутся на те же грабли, при реализации проектных задач. Мне довелось сделать ML модель в одном исследовательском проекте в Европе.  К сожалению, я подписала NDA и деталей проекта рассказать не получится (пока), но поделиться  опытом решение задачи и совершенными мной наивными ошибками смогу. Ошибка 1: если заказчик хороший, то и данные хорошие - можно не проверять. Моя роль в проекте заключалась в построении модели классификации на уже собранных данных...
1 месяц назад
Геоаналитик - это кто?
Первый пост я хочу начать с рассуждения о том, кто такой геоаналитик. Думаю, что пост в какой-то степени "задевает" каждого моего подписчика, поэтому буду рада услышать ваше мнение в комментариях. Ответ на вопрос "кто такой геоаналитик" и точнее, где границы между задачами, которые решает он и теми, которые решает GIS-специалист, data аналитик или кто-либо еще, рождается самым естественным образом, как только начинаешь интересоваться пространственной аналитикой. За последние 4 с половиной года с...
1 месяц назад