Качаем парсинг на Python

12 августа 202412 авг 2024

1 мин

🚀 Работа с библиотекой BeautifulSoup для парсинга HTML страниц!

Хотите выжимать из веб-сайтов нужные данные как спортивный напиток после тренировки? 💪 Библиотека BeautifulSoup – это ваш идеальный тренер для парсинга HTML страниц!

Переходим на новый уровень:

1. Установка необходимых библиотек:
Для начала установим BeautifulSoup и requests, которые помогут вам в вашей веб-битве:

pip install beautifulsoup4 requests

2. Пример кода для извлечения данных:
Вот вам простой супер-план по парсингу страницы и извлечению заголовка и текста статьи:

import requests
from bs4 import BeautifulSoup

url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

title = soup.find('h1').text
content = soup.find('div', class_='article-content').text

print('Заголовок:', title)
print('Содержание:', content)

3. Альтернативные библиотеки:
Если вы в поисках новостных архивов, попробуйте NewsPaper3k. Она позволяет легко извлекать статьи и мета-данные, просто передавая URL:

pip install newspaper3k

Пример использования:

from newspaper import Article

url = 'https://example.com/news-article'
article = Article(url)
article.download()
article.parse()

print('Заголовок:', article.title)
print('Автор:', article.authors)
print('Содержание:', article.text)

4. Скачивание изображений:
Чтобы «собрать» изображения с веб-сайтов, используйте requests. Например:

img_url = 'https://example.com/image.jpg'
img_data = requests.get(img_url).content

with open('image.jpg', 'wb') as handler:
handler.write(img_data)

5. Клонирование веб-страниц:
Если хотите клонировать сайт как бесстрашный клон, загляните в pywebcopy. Это поможет вам сохранить контент без заморочек!