Всем привет!
Сегодня, я хочу рассказать вам о такой штуке как парсинг или веб-скрапинг на Python.
Расскажу что это такое, какими библиотеками пользоваться и что нужно знать для создания своего первого парсера. Рассказать об этом я планирую в трех статьях. Поэтому, подписывайтесь на канал!
Парсинг или веб-скрапинг - это сбор данных, как правило с сайта, с помощью языков программирования. Программа берет html-код
нужной нам страницы и забирает оттуда данные.
Работает это так:
1) Отправляем get запрос на нужную нам страницу, в ответ получаем html-код.
2) Ищем нужную нам инфу в html.
3) Забираем данные.
Я использую requests и bs4. Это сторонние библиотеки, которые нужно установить. На мой взгляд, с ними работать намного легче и удобнее чем с встроенными.
Про requests и bs4 я напишу уже в следующих статьях.
Естественно, вы должны знать основы Python. Применять свои знания на практике, недостаточно просто знать синтаксис языка, надо понимать где и когда что использовать, это приходит с опытом разработки.
В парсинге часто встречаются небольшие задачки, например у вас есть строка 132,42321442$, а вам нужно это округлить до 132,5$ и все в таком духе.
Базовое знание html. Без этого будет сложно разобраться, где хранится наша заветная информация. В каком теге и т.д
Спасибо за внимание!) Подписывайтесь на канал, чтобы не пропустить следующие статьи.