Найти в Дзене
Стёпчик volt

Уроки программирования: парсер на python в termux|termux уроки|termux python

Уроки программирования: парсер на python

И так, в этой статье я опишу вам как запрограммировать парсер на python, а также его запуск в linux терминале(да и его создание). Что за linux терминал? Termux. Сегодня я создам скрипт в termux'е. Его можно установить в play market. Ссылочка на него в конце. Он эмулирует консоль линукса. И так погнали!

Подготовка

Для начала надо установить удобный для вас редактор, в моём случае это "nano". Для начала обновимся, прописываем команды:

apt update
apt upgrade

Теперь установим nano:

apt install nano

Немногоо подождите, термукс устанавливает все необходимые репозитории. Когда у вас появится знак "$"- загрузка будет завершена. Теперь установим наш Пайтон. Пишем:

apt install python
apt install python2

Всё!!! Установили все необходимые пакеты для программирования! Но мы хотим ведь сделать парсер? Теперь установим библиотеку bs4 и request:

pip install bs4
pip install request

Наконец-то мы всё установили! Теперь перейдем непосредственно к написанию парсера, и его запуску.

Прописываем :

nano название_файла.py

Nano создаст файл с указанным названием, если его нет, или откроет если есть. Далее пишем следующий код:

import requests
from bs4 import BeautifulSoup
headers = requests.utils.default_headers()
headers.update({ 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/69.0'})
url = input("Введите адрес:")
print(url);
req = requests.get(url, headers)
soup = BeautifulSoup(req.content, 'html.parser')
variable = soup.find_all('a') 
for tag in variable:
  print(tag.get('href'))

Он просит ввести адрес сайта, а затем парсит всё содержимое всех ссылок.

В начале кода мы импотируем две наших установленные библиотеки. Затем создаём заголовки(это фейковый браузер), сохраняем введённый адрес в переменную url, выводим её, получаем исходный сайт, создаём объект парсера, записываем в переменную variable всё теги-ссылки, и в цикле for перечисляем все ссылки, выводя их url. 

Вот мой результат с Гугла:

Результат
Результат

На самом деле это не все, их очень много.

Заключение

Надеюсь вам эта статья понравилась, да и сам результат(если да, то можете посмотреть видосы на моём ютуб канале "Стёпчик volt"). Мне очень! Ну вообщем пора прощаться, всем удачи, всем пока!)))...