115 читали · 3 года назад
Извлечение данных из HTML и XML документов с помощью Beautiful Soup
Beautiful Soup - это Python библиотека, которая используется для парсинга HTML и XML документов. С помощью Beautiful Soup можно извлекать данные из веб-страниц, такие как заголовки, текст, ссылки, изображения и многое другое. Для начала работы с Beautiful Soup, необходимо установить эту библиотеку в своем проекте. Для этого можно использовать менеджер пакетов pip: После установки Beautiful Soup можно начать использовать эту библиотеку для извлечения данных из HTML и XML документов. Например, следующий...
2 месяца назад
Парсинг сайтов на Python
bash pip install requests beautifulsoup4 selenium scrapy lxml python import requests from bs4 import BeautifulSoup import time # Базовый парсинг с заголовками headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } try: response = requests.get('https://example.com', headers=headers, timeout=10) response.raise_for_status() # Проверка на ошибки soup = BeautifulSoup(response.text, 'html.parser') # Поиск элементов titles = soup.find_all('h1') links = soup.find_all('a', class_='some-class') text = soup.find('div', id='content')...