НАЧАЛО ПРОГРАММИРОВНАИЯ НА PYTHON
Сегодня мы приступим к постепенному ознакомлению с языком программирования Python. Начнем из далека.
Python очень разнообразный язык который применяется для решения многих вопросов, я выделил для себя следующие интересные темы которые мы будем изучать и на их основе изучать столь многогранный язык. Я выделил следующие темы:
1. Парсинг/Скрапинг
2. Разнообразные боты
3. Django
4. DRF(Django REST Framework)
Я расположил все эти темы по мере увеличения их сложности.
Что такое парсинг и скрапинг?
Парсинг и скрапинг — связанные понятия в компьютерных науках и разработке программного обеспечения, но они относятся к разным процессам.
парсинг относится к процессу получения данных в определенном формате и разбиения их на более мелкие, более управляемые части для использования в программе. Например, парсер может взять HTML-файл и извлечь из него текст, изображения и ссылки в отдельные переменные для упрощения обработки в сценарии.
Скрапинг, с другой стороны, относится к процессу извлечения данных с веб-сайтов, как правило, путем отправки HTTP-запросов и анализа ответов для извлечения конкретной информации. Скрапинг можно использовать для различных целей, таких как сбор данных, аналитика или создание веб-контента.
Таким образом, парсинг — это более общий термин, который может относиться к обработке любых данных в определенном формате, в то время как скрапинг конкретно относится к извлечению данных с веб-сайтов.
То есть мы делаем вывод, что
Парсинг и скрапинг - это две разные техники, используемые для извлечения информации из электронных документов.
- Парсинг (parsing) - это процесс анализа структуры документа и извлечения информации из него. Он обычно используется для анализа файлов в формате XML или JSON, которые являются структурированными и легко обрабатываемыми.
- Скрапинг (scraping) - это процесс извлечения информации из веб-страниц, которые не являются структурированными. Скрапинг используется для извлечения информации из HTML-документов, которые содержат информацию, необходимую для дальнейшей обработки.
Как вы понимаете начинать свой путь в Python мы начнем с парсинга и скрапинга, потому как в этих темах мы сможем понять основы Python: типы данных, списки, работы со строками, взаимодействие с файлами, работа с библиотеками и т.д. Прежде чем начать писать код нужно понять, что же мы будем парсить/скрапить и настроить нашу среду разработки.
Мне показалось, что хорошей идей для первой программы будет парсинг поисковых запросов google. Парсинг поисковых запросов нам сможет дать большое количество информации для анализа.
Ну приступим к написанию своего первого проекта
Остановились мы на создании проекта, а точнее на окне его настроек, давайте посмотрим какие настройки тут нам доступны
1. Location - Это путь к нашему проекту, он может отличаться от моего и его можно поменять для удобства, в конце этого пути написано по умолчанию pythonProject (выделено синим на скриншоте) это название нашего проекта. Поменяем его на более осмысленное, что бы мы при виде папки проекта поняли, что это за проект, назовем наш проект parser_google
2. New environment using – Это виртуальная среда которая представляет собой автономный каталог, содержащий установку Python и все необходимые пакеты и зависимости, необходимые для конкретного проекта. Это позволяет разработчикам создавать и управлять изолированными средами Python для разных проектов, каждый из которых имеет свой собственный набор пакетов и зависимостей. В этом пункте мы выбираем Virtualenv
Что такое Virtualenv и почему выбираем именно его
- Virtualenv: это широко используемый тип виртуальной среды, который создает отдельную среду Python с собственным каталогом пакетов сайтов и двоичным файлом Python. Это означает, что любые пакеты или модули, установленные в virtualenv, изолированы от глобальной среды Python и могут быть доступны только из этой виртуальной среды. Virtualenvs могут быть созданы для разных версий Python, что позволяет разработчикам работать с различными средами Python и избегать конфликтов версий.
Существует так же второй вид виртуальной среды Conda - Conda: Conda - это кроссплатформенный менеджер пакетов и система управления средой, которая может использоваться для создания и управления виртуальными средами. В отличие от Virtualenv, Conda также может управлять пакетами и библиотеками, отличными от Python. Управление средами Conda осуществляется с помощью диспетчера пакетов conda, который позволяет устанавливать пакеты и зависимости из централизованного репозитория. Исходя из этого мы можем придти к выводу, что
Основное различие между Virtualenv и Conda заключается в том, что Conda может управлять зависимостями вне Python, в то время как Virtualenv ориентирован только на зависимости Python. Кроме того, Conda также имеет лучшую поддержку для создания и управления средами на нескольких платформах
3. Create a main.py welcome script – это Создание приветственного сценария в PyCharm является дополнительной функцией, которая позволяет настраивать среду PyCharm при запуске. Этот сценарий можно использовать для задания переменных среды, настройки пользовательского интерфейса PyCharm или выполнения других задач инициализации.main.py
Например, сценарий приветствия можно использовать для настройки подключения к базе данных, установки необходимых пакетов или запуска локального сервера разработки. В целом, приветственный скрипт предоставляет способ автоматизации и оптимизации рабочего процесса разработки в PyCharm. На данный момент так как это первый запуск у нас запустился стандартный приветственный сценарий, который нам сразу сделал файл main.py и прописал стандартный код с выводом в консоль PyCharm.
На примере этого кода мы можем увидеть, как нужно правильно писать код на Python. Пока не будем углубляться в эту тему
Нажимаем create и видим следующие окно:
С лева находиться дерево нашего проекта с права основное окно с кодом
Сейчас нам нужно выполнить небольшие настройки для PyCharm, что бы соответствовать стандарту написания PEP8
В левом верхнем углу нажимаем File выбираем Settings должно открыться следующее окно:
В нем раскрываем Editor, затем раскрываем General и выбираем Appearance должно получиться следующее окно:
Ставим галочку на Show whitespaces. Это нам нужно временно в будущем эту настройку можно убрать она покажет количество пробелов от края. Это нам нужно для того что бы соблюсти один из основных принципов PEP8: “Отступ: используйте 4 пробела на уровне отступа.”
Далее свернем General и развернем Code Style и выберем Python должно открыться следующее окно:
Если стоит галочка Use tab character ее нужно убрать и теперь при нажатии на Tab у нас будет ставиться 4 пробела. Нажимаем Apply -> OK и все базовые настройки нашей IDE готовы. В следующей статье мы уже приступим к написанию кода и использованию сторонних библиотек