Найти тему
Nikita Vandishev

ПАРСЕР НА PYTHON? ЛЕГКО!

Сегодня мы познакомимся с самым простым парсером. Его код умещается в пару функций!

Сообщество вконтакте:
vk.com/qa_ninjas
Подписывайтесь на телеграм канал:
teleg.run/QA_NINJAS

Парсер - это программное обеспечение для сбора данных и преобразования их в структурированный формат, чаще всего работа с текстовым типом информации.

Исполнение кода вернет строку «Язык программирования Python 3 для начинающих и чайников»
Исполнение кода вернет строку «Язык программирования Python 3 для начинающих и чайников»

Не много о его работе:

Функция get_html — создает get запрос на страницу и возвращает html код страницы в виде текста.
Функция get_data — выдергивает из пришедшего текста необходимые нам строки , следуя пути которому мы задаем ей.
И как обычно main — вызывает исполнение функций вызванных в нем

Как выбрать распарсить необходимый текст? Легко!
Просто нужно указать его в переменной get_text , даже скорее путь где этот текст расположен на сайте

-2

Здесь по сути,мы указываем div c id=content ,углубляемся в него и указываем header с названием entry-header — как раз в нем и лежит нужный текст!

Для удобства выложил проект на GitHub:
https://github.com/nekitvand/parsers