🌐Получите бесплатный аудит состояния своего сайта и прогноз роста
🌐Присоединиться к телеграм каналу
Всем привет!
Начинаю цикл статей как строить аналитику крупных проектов.
Список всех гипотез будет позже. А пока давайте научимся собирать данные с сайта для проверки гипотезы. Например, нам нужно понять какое идеальное количество отзывов на странице товаров, для этого нам надо пропарсить весь сайт и со страниц товаров получить информацию сколько отзывов на товаре есть. Для этого нам нужно понимать верстку и использовать xPath.
Не будет куча лирики про то что такое xPath, его историю, предназначение и тд и тп. Чисто есть задача и как ее решить через xPath пошагово.
Ставим себе расширение для браузера Google Chrome, которое называется xPather. Идем на страницу товара и понимаем что именно нам надо спарсить.
Есть несколько вариантов.
- Через xPather, просто правой кнопкой мыши и выбираем get unigue
Но этот вариант не идеален, так как если выбранный DIV будет комбинированный, то вы соберете кучу мусора.
Через браузер,
1 шаг: смотрим код элемента:
2 шаг: находим нужный DIV/SPAN и копируем его xPath прям из верстки:
Теперь у нас есть наш xPath данного элемента: //span[@class='summary-main-number-of-reviews__value']
Далее включаем тулзу xPather и проверяем, должно получится что он находит 1 элемент (правый верхний угол) и ниже должно быть указано соответствующее значение.
Если вы видите не такую картинку, значит вы взяли не правильно xPath.
Кстати, xPath может так же и вычислять, например, если вам нужно посчитать объемы текстов под каталогов, или в разделе FAQ, то можно использовать такую конструкцию:
string-length(normalize-space(//div[@class='prefooter']))
где //div[@class='prefooter'] - это xPath текста
Далее запускаем Screaming Frog.
Выбираем Configuration → Custom → Extraction
И создаем кастомные поля для парсинга:
1 - название любое ваше
2 - собственно сам xPath
3 - Тут нужно выбрать, что именно надо:
Если обычный xPath, то выбираем Extract Text, а если формула по вычислению объема текста, то надо выбрать Function Value
Далее сохраняем и запускаем парсинг.
Получаем на выходе такой файлик: