1 подписчик

Как запарсить любой сайт

13 апреля 202113 апр 2021

~1 мин

Часто мы сталкиваемся с тем, что нам нужно проанализировать и найти определённые компоненты на сайте. Но что делать, если на этом сайте ровно тыща миллионов страниц? Когда речь заходит о парсинге всех интересующих страниц сайта, я использую специальный скрипт, который является наиболее быстрым и простым способом.

Суть скрипта состоит в следующем:
- Поднять http-сервер
- На входящий запрос
- проверить, есть ли сохраненные данные по данному URL
- если есть, то отдать их в браузер
- если нет, то сделать запрос на целевой ресурс, заменить все упоминания целевого ресурса, сохранить данные в файл и отдать данные в браузер

Таким образом, мы можем авторизовываться на сайте, ходить по сайту, по разным страницам, и вся статика будет сохраняться.

Требования:
- Nodejs (теоретически, любой версии, используется core функционал)
- свободное дисковое пространство (для сохранения всех медиа файлов)

Сам скрипт:

https://drive.google.com/file/d/1OxWLqsLdWIqcXEZBun4jXHfYSpxYaNI_/view?usp=sharing

(Переходим по ссылке на гугл диск, поскольку дзен исключает возможность прикреплять файлы)