Найти тему
Властелин машин

Скелет для парсера на Python

Специалист по анализу данных нуждается в постоянном притоке актуальных сведений. В силу распространенной проблемы отсутствия релевантной информации в необходимом для качественного анализа объеме, зачастую приходится извлекать эти сведения из веб-страниц путем парсинга и без использования какого-либо API.

Ранее я делился основами веб-скрапинга на Python с использованием библиотек requests и urllib (для получения контента), а также beautifulsoup4 (для его разбора). В частности, я сообщил об основах работы с методами объекта BeautifulSoup find и findAll, позволяющими получать первый и все результаты поиска тегов и их атрибутов, а также привел код функции для безопасного получения страницы с использованием средств анонимизации (подробнее здесь).

Теперь предлагаю пойти дальше и поэтапно реализовать базовый функционал для проведения парсинга ряда сайтов, имеющих шаблонную структуру. В их число входят площадки для размещения объявлений о продаже товара либо спортивные ресурсы о проведенных матчах или боях. Общим при проведении их парсинга является необходимость определения контейнеров, в которых находятся ссылки на события, извлечение этих адресов, после чего - серфинг по товарам либо матчам со сбором статистики о каждом из них.

-2
-3
-4
-5

Таким образом, для скрапинга нам будет необходимо реализовать следующие модули:

-6

В дальнейшем напишем код для программирования работы каждого модуля.