Парсинг сайтов Python - #1 requests запросы (GET/POST)
Простые способы парсинга сайтов на Python3. BeautifulSoup+requests, Selenium.
Здравствуй 😊. Постараюсь без лишних строчек и акцентируя внимание на нюансах. Опишу два способа, которыми я пользуюсь. На их основе можно делать в скрапинге сайтов всё что угодно для рядового пользователя. Первым буду описывать BeautifulSoup , второй - Selenium.
Формат описания способов парсинга в этой статье следующий: BeautifulSoup. Это модуль из каталога пакетов Python Package Index, ссылка на каталог ---> pypi.org. Как устанавливать пакеты(модули) в Python ---> тут. BeautifulSoup - это парсер для синтаксического разбора файлов HTML/XML...
Парсинг сайтов на Python
bash pip install requests beautifulsoup4 selenium scrapy lxml python import requests
from bs4 import BeautifulSoup
import time
# Базовый парсинг с заголовками
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
try:
response = requests.get('https://example.com', headers=headers, timeout=10)
response.raise_for_status() # Проверка на ошибки
soup = BeautifulSoup(response.text, 'html.parser')
# Поиск элементов
titles = soup.find_all('h1')
links = soup.find_all('a', class_='some-class')
text = soup.find('div', id='content')...