Как парсить сайты, на которых есть проблемы с пагинацией и ссылками

14 февраля 202114 фев 2021

1 мин

Оглавление

Проблемы со сбором ссылок на нужном сайте?
Самый простой и оптимальный способ собрать ссылки.
Заключение

Проблемы со сбором ссылок на нужном сайте?

Наличие пробелов в ссылке? Относительные ссылки ? Ссылки выводятся скриптом ? Скроллинг? Подгружаемый контент ? -не надо на это тратить свое время

Самый простой и оптимальный способ собрать ссылки.

Большинство готовых парсеров умеют работать с ссылками из текстового файла, а написать свой парсер под эти условия достаточно просто.

1. Как и где взять ссылки

Большинство сайтов имеют карту сайта - файл sitemap.xml

Найти его можно напрямую по ссылке site.ru/sitemap.xml, но лучше открыть файл по ссылке site.ru/robots.txt

2. Переходим по ссылке

Откроется примерно такая страница

У больших сайтов в этом файле будут ссылки на другие sitemap.xml, потому что ограничение стандарта 50 000 ссылок и они просто не умещаются в одном файле.

Чтобы сохранить файл просто на странице открываем мышкой активируем меню и выбираем Сохранить как. Файл сохранится на компьютере.

3. Получаем ссылки на страницы.

Мы конечно не хотим писать маленький код на PYTHON, NET и других. Хотя это было бы полезным.

Нам нужны ссылки которые в файле выглядят так:

<loc>https://www.site.ru/tverskoi/generalynaya-prokuratura-rf-2.html</loc>

Для их получения можно использовать Excel, но если не умете , то нам нужен онлайн конвертер.

Все такие сайты похожи и примерно так выглядит интерфейс

Скачиваем результат себе на компьютер

4. Создание файла links.txt

Открываем файл после конвертации в Excel

В Excel удаляем лишние столбцы и первую строку. Удаляем повторы ссылок . Затем фильтруем по алфавиту и удаляем ссылки которые не являются целевыми , например ведут на страницы с контактами , к разделам.

Если не знаете как из Excel сохранить в txt , то просто скопируйте столбец и вставьте в блокнот.

Заключение

На первый взгляд это может показаться сложно, но это быстрее чем искать и пробовать способы использую разные варианты кода и WebDriver. Также мы сразу избавляемся от возможных дублей ссылок и не придется думать об этом в коде и настройках. WebDriver так же замедляет скорость работы программы, чтобы его еще использовать и для сбора ссылок.