Сегодня мы познакомимся с самым простым парсером. Его код умещается в пару функций!
Сообщество вконтакте:
vk.com/qa_ninjas
Подписывайтесь на телеграм канал:
teleg.run/QA_NINJAS
Парсер - это программное обеспечение для сбора данных и преобразования их в структурированный формат, чаще всего работа с текстовым типом информации.
Не много о его работе:
Функция get_html — создает get запрос на страницу и возвращает html код страницы в виде текста.
Функция get_data — выдергивает из пришедшего текста необходимые нам строки , следуя пути которому мы задаем ей.
И как обычно main — вызывает исполнение функций вызванных в нем
Как выбрать распарсить необходимый текст? Легко!
Просто нужно указать его в переменной get_text , даже скорее путь где этот текст расположен на сайте
Здесь по сути,мы указываем div c id=content ,углубляемся в него и указываем header с названием entry-header — как раз в нем и лежит нужный текст!
Для удобства выложил проект на GitHub:
https://github.com/nekitvand/parsers