Beautiful Soup - это библиотека Python для извлечения данных из HTML и XML.
Этот пример иллюстрирует основные функции Beautiful Soup 4, для чего нужна эта библиотека и как ее использовать.
В Ubuntu библиотека устанавливается с помощью команды: sudo apt-get install python3-bs4 Попробуем извлечь из wiki список произведений Иоганна Себастьяна Баха
Импорт необходимых модулей: import requests
from bs4 import BeautifulSoup, Tag, NavigableString
Для начала необходимо получить HTML данные с помощью модуля requests, который позволяет отправлять запросы HTTP. Запрос возвращает объект ответа со всеми данными ответа (содержимое, кодировка, состояние и т.д.) def get_html(url):
try:
response = requests.get(url)
except requests.Timeout:
print("GET_HTML: Ошибка timeout, url: " + url)
return "Error"
except requests.HTTPError as error:
print("GET_HTML: Ошибка url (0), код: (1)".format(url, code))
return "Error"
except requests.RequestExcep