Уроки программирования: парсер на python
И так, в этой статье я опишу вам как запрограммировать парсер на python, а также его запуск в linux терминале(да и его создание). Что за linux терминал? Termux. Сегодня я создам скрипт в termux'е. Его можно установить в play market. Ссылочка на него в конце. Он эмулирует консоль линукса. И так погнали!
Подготовка
Для начала надо установить удобный для вас редактор, в моём случае это "nano". Для начала обновимся, прописываем команды:
apt update
apt upgrade
Теперь установим nano:
apt install nano
Немногоо подождите, термукс устанавливает все необходимые репозитории. Когда у вас появится знак "$"- загрузка будет завершена. Теперь установим наш Пайтон. Пишем:
apt install python
apt install python2
Всё!!! Установили все необходимые пакеты для программирования! Но мы хотим ведь сделать парсер? Теперь установим библиотеку bs4 и request:
pip install bs4
pip install request
Наконец-то мы всё установили! Теперь перейдем непосредственно к написанию парсера, и его запуску.
Прописываем :
nano название_файла.py
Nano создаст файл с указанным названием, если его нет, или откроет если есть. Далее пишем следующий код:
import requests
from bs4 import BeautifulSoup
headers = requests.utils.default_headers()
headers.update({ 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/69.0'})
url = input("Введите адрес:")
print(url);
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
variable = soup.find_all('a')
for tag in variable:
print(tag.get('href'))
Он просит ввести адрес сайта, а затем парсит всё содержимое всех ссылок.
В начале кода мы импотируем две наших установленные библиотеки. Затем создаём заголовки(это фейковый браузер), сохраняем введённый адрес в переменную url, выводим её, получаем исходный сайт, создаём объект парсера, записываем в переменную variable всё теги-ссылки, и в цикле for перечисляем все ссылки, выводя их url.
Вот мой результат с Гугла:
На самом деле это не все, их очень много.
Заключение
Надеюсь вам эта статья понравилась, да и сам результат(если да, то можете посмотреть видосы на моём ютуб канале "Стёпчик volt"). Мне очень! Ну вообщем пора прощаться, всем удачи, всем пока!)))...