4 дня назад
Парсинг HTML: как извлекать данные с сайта автоматически
Рассмотрим основные принципы работы парсеров, их типы и инструменты для парсинга HTML-страниц. Это автоматическое извлечение информации со страниц. Парсят сайты через программы и скрипты — их называют парсерами. Они сканируют веб-ресурсы, извлекают необходимую информацию и конвертируют в таблицы или базы данных. Парсинг позволяет автоматизировать рутинные процессы и эффективно обрабатывать огромные объемы данных. Будь то сбор цен для анализа конкурентов, мониторинг новостей или создание собственного каталога товаров...
122 читали · 3 года назад
Веб-парсинг на Python. Часть 2
Это вторая часть, если вы не видели первую, то настоятельно рекомендую прочитать — Веб-парсинг на Python. Часть 1, — а затем возвращаться сюда! Автоматический парсинг таблиц HTML-таблицы все еще широко применяются на сайтах. Мы можем воспользоваться этим, поскольку они обычно структурированы и хорошо отформатированы. Используя в качестве примера список самых продаваемых альбомов из Википедии, мы извлечем все значения в датафрейм pandas. Это простой пример, но со всеми данными нужно обращаться так, как если бы они были получены из набора данных...