Найти тему

Сбор данных на примере сервиса поиска работы

В прошлой статье был рассмотрен Web2.0 (вот ссылка )

К WEB2.0 также стоит отнести сервисы поиска работы. К примеру, HH.RU. На данной платформе существуют разделы как для работодателей, так и соискателей. Рассмотрим сбор и анализ данных на примере размера заработной платы в зависимости от возраста соискателя. Для такого сбора необходимо понимать как формируется запрос к серверу платформы. Так как при отборе необходимых вакансии обязательно будут подключаться фильтры поиска. Для примера: опыт работы, ключевые навыки, регион, территориальное расположение и так далее.

Поняв как формируется запрос к серверу платформы, можно идти далее, так как в любой момент времени возможно будет выполнить необходимы и интересующий нас запрос. При отборе резюме, скорее всего, не все вакансии будут расположены на одной странице, и это также стоит учесть.

Далее необходимо выполнить запрос (request) и получить ответ от сервера (response).

Следующий вопрос при сборе данных: использовать готовые библиотеки для разбора ответа сервера или использовать самописные методы? Очевидно, что самописные методы будут основаны на использовании регулярных выражений. По опыту могу сказать, что иногда целесообразнее использовать регулярные выражения. Нередко такой способ работает быстрее.

Для того, чтобы проанализировать функциональную зависимость заработной платы от возраста соискателя потребуются соответственно следующие данные: возраст соискателя, сфера деятельности соискателя, заработная плата. Сфера деятельности соискателя необходима для оценки функциональной зависимости в зависимости от рода деятельности. Очевидно, что люди в разных сферах деятельности в зависимости от своего возраста востребованы по разному.

Для построения и анализа функциональной зависимости достаточно воспользоваться гистограммой. Шаг на оси, характеризующий разницу в возрасте между соседними классами, возможно потребуется определять эмпирически для большой наглядности.

В следующей статье будет рассматриваться язык программирования python3 и необходимые библиотеки для сбора данных.