06:44
1,0×
00:00/06:44
526,2 тыс смотрели · 4 года назад
238 читали · 3 года назад
Веб-скрейпинг с нуля на Python: библиотека Beautiful Soup
Источник: Nuances of Programming Данные есть везде, на каждом посещенном вами сайте. Чаще всего они уже представлены в читаемом текстовом формате, пригодном для использования в новом проекте, однако, несмотря на то, что нужный текст всегда можно скопировать и вставить прямо со страницы сайта, когда речь заходит о больших данных  —  о тексте с десятка тысяч веб-сайтов  —  скрейпинг приходит на помощь. Обучаться веб-скрейпингу (web-scraping) поначалу сложно, однако если вы начнете своё знакомство с большими данными, используя правильные инструменты, то предстоящий вам путь существенно облегчится...
2 года назад
Как парсить через python?
Вы можете использовать библиотеку BeautifulSoup для парсинга следующих элементов страницы: - Текст - Изображения - Таблицы - Формы - Ссылки - Заголовки - Списки - Комментарии - Метаданные Для парсинга текста вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example.com' page = requests.get(url) soup = BeautifulSoup(page.content, 'html.parser') # Получить все тексты на странице texts = soup.find_all('p') for text in texts:    print(text.text) ``` Для парсинга изображений вы можете использовать следующий код: ```python from bs4 import BeautifulSoup import requests url = 'https://example...