Часто мы сталкиваемся с тем, что нам нужно проанализировать и найти определённые компоненты на сайте. Но что делать, если на этом сайте ровно тыща миллионов страниц? Когда речь заходит о парсинге всех интересующих страниц сайта, я использую специальный скрипт, который является наиболее быстрым и простым способом.
Суть скрипта состоит в следующем:
- Поднять http-сервер
- На входящий запрос
- проверить, есть ли сохраненные данные по данному URL
- если есть, то отдать их в браузер
- если нет, то сделать запрос на целевой ресурс, заменить все упоминания целевого ресурса, сохранить данные в файл и отдать данные в браузер
Таким образом, мы можем авторизовываться на сайте, ходить по сайту, по разным страницам, и вся статика будет сохраняться.
Требования:
- Nodejs (теоретически, любой версии, используется core функционал)
- свободное дисковое пространство (для сохранения всех медиа файлов)
Сам скрипт:
https://drive.google.com/file/d/1OxWLqsLdWIqcXEZBun4jXHfYSpxYaNI_/view?usp=sharing
(Переходим по ссылке на гугл диск, поскольку дзен исключает возможность прикреплять файлы)