174 читали · 5 лет назад
Закачка и парсинг страниц на Python
Зачастую при отсутствии структурированных данных и возможности их сбора посредством интерфейсов прикладного программирования (API) аналитик вынужден проводить парсинг веб-страниц, возвращаемых в сыром виде (веб-скрапинг). Незаменимым инструментом для этого являются библиотеки requests, urllib (для получения контента), beautifulsoup4 (для разбора контента). Представляю один из вариантов функции, получающей содержимое страницы: import requests import random import time def get_url_delay(delay,url): session = requests...
354 читали · 4 года назад
Парсинг веб-страниц на Python
Парсинг веб-страниц Парсинг веб-страниц (scraping) нужен для многих целей: от борьбы с сервисами, которые не предоставляют API, до создания поисковых систем. Для демонстрации мы извлечем заголовки новостей с главной страницы журнала. C помощью библиотеки requests и парсера HTML BeautifulSoup мы можем сделать это всего в несколько строк. Установим библиотеки: pip3 install requests beautifulsoup4. Теперь откроем xakep.ru в отладчике браузера и увидим, что заголовки...