Доброго времени суток, читатели, зрители моего канала programmer's notes. Не забывайте подписываться и писать свои комментарии к моим статьям и видео. Парсинг страниц html с помощью модуля html.parser Для парсинга web-страниц есть разные библиотеки. И мы будем к ним обращаться. Но есть и совершенно замечательный стандартный модуль html.parser. Вот сегодня мы им и займёмся. Чтобы разбирать html-страницу, необходимо создать объект класса HTMLParser. У него есть целый набор методов, часть из которых запускается автоматически при отправке объекту текста html-страницы...
Это вторая часть, если вы не видели первую, то настоятельно рекомендую прочитать — Веб-парсинг на Python. Часть 1, — а затем возвращаться сюда! Автоматический парсинг таблиц HTML-таблицы все еще широко применяются на сайтах. Мы можем воспользоваться этим, поскольку они обычно структурированы и хорошо отформатированы. Используя в качестве примера список самых продаваемых альбомов из Википедии, мы извлечем все значения в датафрейм pandas. Это простой пример, но со всеми данными нужно обращаться так, как если бы они были получены из набора данных...