591 подписчик
Все настоящие смыслы скрыты. Жизнь полна секретов, и ограниченных людей, и сладких пустых разговоров, в которых нет смысла. Реально то, что скрыто в нас. (Л. Дж. Шэн) Работая с веб-страницами, помните, что знания Python вам сильно пригодятся при необходимости извлечь труднодоступное содержимое, в том числе намеренно скрытое. Так, мне удалось получить исходный код Jupyter блокнота, который передавался в словаре как параметр одной из функций. Стандартом де-факто при парсинге веб-страниц является библиотека BeautifulSoup, о которой я неоднократно писал ранее...
1 год назад
13,7K подписчиков
Источник: Nuances of Programming Многие сайты предлагают подписки на новостные рассылки. Но в некоторых случаях хочется отслеживать только определенную информацию. Перечислим ситуации, когда может потребоваться подобный инструмент. В этом обучающем руководстве мы научимся отслеживать изменения страниц с помощью такой библиотеки Python, как Beautiful Soup. Кроме того, узнаем, как бесплатно отправить e-mail посредством Pipedream, превосходной платформы low-code для интеграции API. К делу! Создание...
2 года назад
9,3K подписчиков
Scrapeasy Scrapeasy - это библиотека для Python, которая позволяет легко обрабатывать веб-страницы и извлекать из них данные. Ее можно использовать для поиска данных с одной страницы или с нескольких страниц. Она также может использоваться для извлечения данных из PDF-файлов и HTML-таблиц. Scrapeasy позволяет вам осуществлять сканирование веб-сайтов с помощью python, используя всего одну строку кода. Он очень прост в использовании и все делает за вас. Просто укажите сайт, который вы хотите исследовать, и какие данные вы хотите получить, а Scrapeasy сделает все остальное...
2 года назад
796 подписчиков
Веб-парсинг на Python – это гораздо больше, чем просто извлечение контента с помощью селекторов CSS. Благодаря приемам и идеям из этой статьи вы сможете более надежно, быстро и эффективно собирать данные. Статья будет разделена на две части, так как материал крупный и в одну статью не уместится. Начинаем Сперва установите все необходимые библиотеки, запустив pip install. pip install requests beautifulsoup4 pandas Получить HTML-код из URL-адреса мы можем при помощи библиотеки requests. Затем контент...
2 года назад
361 подписчик
Учитывая современное развитие Интернета, было бы кощунством не написать приложение, взаимодействующее со всемирной паутиной. Сегодня мы напишем простенький html-парсер на Python. Наше приложение будет читать код указанной страницы сайта и сохранять все ссылки в ней в отдельный файл. Это приложение может помочь SEO-аналитикам и веб-разработчикам. Писать будем на Python 3, в котором есть встроенный класс для html-парсера из модуля html.parser from html.parser import HTMLParser Так же нам понадобится функция urlopen из модуля urllib from urllib...
4 года назад