696 подписчиков
После прочтения урока: "Введение в парсинг сайтов на python", мы с вами можем приступить к парсингу сайтов. Подготовка заголовков Сначала нам нужно подготовить наши заголовки к парсингу. На самом деле, необязательно отправлять с запросом все заголовки. В большинстве случаев достаточно User-Agent и Accept. Первый заголовок имитирует, что мы - реальный пользователь, работающий через браузер. Второй указывает на то, что мы хотим получать гипертекстовые теги от веб-сервера: После того как заголовки сгенерированы, настало время отправить запрос и сохранить страницу из ответа веб-сервера...
5 месяцев назад
5,9K подписчиков
Статья подготовлена для студентов курса «Разработчик Python» в образовательном проекте OTUS. Рано или поздно любой Python-программист сталкивается с задачей скопировать какой-нибудь материал с сайта. Так как страниц на нём достаточно много, терять время на ручное копирование — не самый лучший выход. К тому же, языки программирования затем и нужны, чтобы избавлять нас от рутинной работы, автоматизируя решение различных задач. Если же говорить о работе с HTML, то в Python есть отличные библиотеки для этого...
5 лет назад
361 подписчик
Учитывая современное развитие Интернета, было бы кощунством не написать приложение, взаимодействующее со всемирной паутиной. Сегодня мы напишем простенький html-парсер на Python. Наше приложение будет читать код указанной страницы сайта и сохранять все ссылки в ней в отдельный файл. Это приложение может помочь SEO-аналитикам и веб-разработчикам. Писать будем на Python 3, в котором есть встроенный класс для html-парсера из модуля html.parser from html.parser import HTMLParser Так же нам понадобится функция urlopen из модуля urllib from urllib...
4 года назад
2 подписчика
Вы можете использовать библиотеку BeautifulSoup для парсинга следующих элементов страницы: - Текст - Изображения - Таблицы - Формы - Ссылки - Заголовки - Списки - Комментарии - Метаданные Для парсинга текста вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example.com' page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') # Получить все тексты на странице texts = soup.find_all('p') for text in texts:    print(text.text) ``` Для парсинга изображений вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example...
1 год назад