Найти в Дзене
Torkunoff Agency

Аналитика страниц. Подготовка данных. Парсинг по xPath

Всем привет!
Начинаю цикл статей как строить аналитику крупных проектов.
Список всех гипотез будет позже. А пока давайте научимся собирать данные с сайта для проверки гипотезы. Например, нам нужно понять какое идеальное количество отзывов на странице товаров, для этого нам надо пропарсить весь сайт и со страниц товаров получить информацию сколько отзывов на товаре есть. Для этого нам нужно
Оглавление

🌐Получите бесплатный аудит состояния своего сайта и прогноз роста

🌐Присоединиться к телеграм каналу

Всем привет!

Начинаю цикл статей как строить аналитику крупных проектов.

Список всех гипотез будет позже. А пока давайте научимся собирать данные с сайта для проверки гипотезы. Например, нам нужно понять какое идеальное количество отзывов на странице товаров, для этого нам надо пропарсить весь сайт и со страниц товаров получить информацию сколько отзывов на товаре есть. Для этого нам нужно понимать верстку и использовать xPath.

Не будет куча лирики про то что такое xPath, его историю, предназначение и тд и тп. Чисто есть задача и как ее решить через xPath пошагово.

Ставим себе расширение для браузера Google Chrome, которое называется xPather. Идем на страницу товара и понимаем что именно нам надо спарсить.

-2

Есть несколько вариантов.

  1. Через xPather, просто правой кнопкой мыши и выбираем get unigue
-3

Но этот вариант не идеален, так как если выбранный DIV будет комбинированный, то вы соберете кучу мусора.

Через браузер,

1 шаг: смотрим код элемента:

-4

2 шаг: находим нужный DIV/SPAN и копируем его xPath прям из верстки:

-5

Теперь у нас есть наш xPath данного элемента: //span[@class='summary-main-number-of-reviews__value']

Далее включаем тулзу xPather и проверяем, должно получится что он находит 1 элемент (правый верхний угол) и ниже должно быть указано соответствующее значение.

Если вы видите не такую картинку, значит вы взяли не правильно xPath.

-6

Кстати, xPath может так же и вычислять, например, если вам нужно посчитать объемы текстов под каталогов, или в разделе FAQ, то можно использовать такую конструкцию:

string-length(normalize-space(//div[@class='prefooter']))

где //div[@class='prefooter'] - это xPath текста

Далее запускаем Screaming Frog.

Выбираем Configuration → Custom → Extraction

-7

И создаем кастомные поля для парсинга:

-8

1 - название любое ваше

2 - собственно сам xPath

3 - Тут нужно выбрать, что именно надо:

-9

Если обычный xPath, то выбираем Extract Text, а если формула по вычислению объема текста, то надо выбрать Function Value

Далее сохраняем и запускаем парсинг.

Получаем на выходе такой файлик:

-10
-11

🌐Получите бесплатный аудит состояния своего сайта и прогноз роста

🌐Присоединиться к телеграм каналу