4103 читали · 6 лет назад
Парсинг страниц на Python. Parser на Python
Статья подготовлена для студентов курса «Разработчик Python» в образовательном проекте OTUS. Рано или поздно любой Python-программист сталкивается с задачей скопировать какой-нибудь материал с сайта. Так как страниц на нём достаточно много, терять время на ручное копирование — не самый лучший выход. К тому же, языки программирования затем и нужны, чтобы избавлять нас от рутинной работы, автоматизируя решение различных задач. Если же говорить о работе с HTML, то в Python есть отличные библиотеки для этого...
174 читали · 5 лет назад
Закачка и парсинг страниц на Python
Зачастую при отсутствии структурированных данных и возможности их сбора посредством интерфейсов прикладного программирования (API) аналитик вынужден проводить парсинг веб-страниц, возвращаемых в сыром виде (веб-скрапинг). Незаменимым инструментом для этого являются библиотеки requests, urllib (для получения контента), beautifulsoup4 (для разбора контента). Представляю один из вариантов функции, получающей содержимое страницы: import requests import random import time def get_url_delay(delay,url): session = requests...