Найти тему

Сканируем содержание сайтов

сайт
habr.com

=--->

import requests
from bs4 import BeautifulSoup

start_number = 700000 # Начальный номер статьи
n = 6 # Количество номеров статей

valid_article_numbers = []

for i in range(n):
number = start_number + (2 * i) # Увеличиваем номер статьи на 2
url = f"https://habr.com/ru/articles/{number}/"
response = requests.get(url)
if response.status_code == 200:
valid_article_numbers.append(number)

if valid_article_numbers:
print("Рабочие статьи:")
for valid_number in valid_article_numbers:
url = f"https://habr.com/ru/articles/{valid_number}/"
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
article_text = soup.find('div', class_='article-formatted-body').text

print(f"Статья номер {valid_number}:")
print(article_text)
print("------------------------------")
else:
print("Нет доступных статей.")

Habr