5,9K подписчиков
Статья подготовлена для студентов курса «Разработчик Python» в образовательном проекте OTUS. Рано или поздно любой Python-программист сталкивается с задачей скопировать какой-нибудь материал с сайта. Так как страниц на нём достаточно много, терять время на ручное копирование — не самый лучший выход. К тому же, языки программирования затем и нужны, чтобы избавлять нас от рутинной работы, автоматизируя решение различных задач. Если же говорить о работе с HTML, то в Python есть отличные библиотеки для этого...
5 лет назад
35 подписчиков
Для начала, что такое парсинг, и нужен ли он нам? Парсинг - это процесс сбора информации с сайтов для последующей обработки. Например, вы хотите создать программу "Погода" , не будете же вы следить за термометром и вписывать данные каждый час. Гораздо удобнее, чтобы программа сама брала информацию из интернета. Или вам нужно следить за изменениями данных на каком-либо сайте и, чтобы не делать всё это вручную, мы будем учиться создавать парсер. К тому же парсеры много кому нужны и на фрилансе есть...
8 месяцев назад
9,3K подписчиков
Парсинг веб-страниц Парсинг веб-страниц (scraping) нужен для многих целей: от борьбы с сервисами, которые не предоставляют API, до создания поисковых систем. Для демонстрации мы извлечем заголовки новостей с главной страницы журнала. C помощью библиотеки requests и парсера HTML BeautifulSoup мы можем сделать это всего в несколько строк. Установим библиотеки: pip3 install requests beautifulsoup4. Теперь откроем xakep.ru в отладчике браузера и увидим, что заголовки...
2 года назад