112 читали · 4 года назад
Закачка и парсинг страниц на Python
Зачастую при отсутствии структурированных данных и возможности их сбора посредством интерфейсов прикладного программирования (API) аналитик вынужден проводить парсинг веб-страниц, возвращаемых в сыром виде (веб-скрапинг). Незаменимым инструментом для этого являются библиотеки requests, urllib (для получения контента), beautifulsoup4 (для разбора контента). Представляю один из вариантов функции, получающей содержимое страницы: import requests import random import time def get_url_delay(delay,url): session = requests...
Пользовательский агент в Apache HttpClient
1. Обзор В этом кратком руководстве показано, как отправить собственный заголовок User-Agent с помощью Apache HttpClient. 2. Настройка User-Agent на HttpClient Мы можем установить User-Agent при настройке самого клиента: HttpClients.custom().setUserAgent("Mozilla/5.0 Firefox/26.0").build(); Полный пример будет выглядеть так: @Test void whenClientUsesCustomUserAgent_thenCorrect() throws IOException { CloseableHttpClient client = HttpClients.custom() .setUserAgent("Mozilla/5.0 Firefox/26...