697 подписчиков
После прочтения урока: "Введение в парсинг сайтов на python", мы с вами можем приступить к парсингу сайтов. Подготовка заголовков Сначала нам нужно подготовить наши заголовки к парсингу. На самом деле, необязательно отправлять с запросом все заголовки. В большинстве случаев достаточно User-Agent и Accept. Первый заголовок имитирует, что мы - реальный пользователь, работающий через браузер. Второй указывает на то, что мы хотим получать гипертекстовые теги от веб-сервера: После того как заголовки сгенерированы, настало время отправить запрос и сохранить страницу из ответа веб-сервера...
6 месяцев назад
6K подписчиков
Статья подготовлена для студентов курса «Разработчик Python» в образовательном проекте OTUS. Рано или поздно любой Python-программист сталкивается с задачей скопировать какой-нибудь материал с сайта. Так как страниц на нём достаточно много, терять время на ручное копирование — не самый лучший выход. К тому же, языки программирования затем и нужны, чтобы избавлять нас от рутинной работы, автоматизируя решение различных задач. Если же говорить о работе с HTML, то в Python есть отличные библиотеки для этого...
5 лет назад
14 подписчиков
Здравствуй 😊. Постараюсь без лишних строчек и акцентируя внимание на нюансах. Опишу два способа, которыми я пользуюсь. На их основе можно делать в скрапинге сайтов всё что угодно для рядового пользователя. Первым буду описывать BeautifulSoup , второй - Selenium. Формат описания способов парсинга в этой статье следующий: BeautifulSoup. Это модуль из каталога пакетов Python Package Index, ссылка на каталог ---> pypi.org. Как устанавливать пакеты(модули) в Python ---> тут. BeautifulSoup - это парсер для синтаксического разбора файлов HTML/XML...
4 года назад