Программирование на языке Python. Парсинг html-страниц с помощью стандартного модуля html.parser
Доброго времени суток, читатели, зрители моего канала programmer's notes. Не забывайте подписываться и писать свои комментарии к моим статьям и видео. Парсинг страниц html с помощью модуля html.parser Для парсинга web-страниц есть разные библиотеки. И мы будем к ним обращаться. Но есть и совершенно замечательный стандартный модуль html.parser. Вот сегодня мы им и займёмся. Чтобы разбирать html-страницу, необходимо создать объект класса HTMLParser. У него есть целый набор методов, часть из которых запускается автоматически при отправке объекту текста html-страницы...
2 года назад
Как парсить через python?
Вы можете использовать библиотеку BeautifulSoup для парсинга следующих элементов страницы: - Текст - Изображения - Таблицы - Формы - Ссылки - Заголовки - Списки - Комментарии - Метаданные Для парсинга текста вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example.com' page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') # Получить все тексты на странице texts = soup.find_all('p') for text in texts:    print(text.text) ``` Для парсинга изображений вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example...