Сейчас разберем один из главных инструментов современного Аналитика, язык программирования Python.
Что такое Python?
Давайте начнем с базового определения, а потом разберём все новые термины, которые встретим в этом определении:
Python - мультипарадигмальный высокоуровневый, интерпретируемый язык программирования общего назначения с динамической строгой типизацией и автоматическим управлением памятью. Язык является полностью объектно-ориентированным.
Фуух... давайте начнем с начала:
1. Мультипарадигмальный язык – это означает, что язык изначально создавался с целью использования совокупности идей и понятий, определяющих стиль написания ПО (так называемых Парадигм) от нескольких языков программирования.
2. Высокоуровневый язык – это язык который проще понять человеку, что повышает быстроту и удобство при его использовании. Чтобы кодить Аналитику не нужно знать архитектуру процессора или детали устройства памяти.
3. Интерпретируемый язык программирования, в котором исходный код программы не преобразовывается в машинный код (то есть не прогоняется через компилятор) для непосредственного выполнения.
4. Строгая динамическая типизация - означает, что язык не производит неявные преобразования. Если переменная в строго типизированном языке числовая, значит выполняем только действия, предназначенные для чисел. Например, математические операции с числами допустимы, а если попробуем применить их к строкам —получим ошибку.
5. Автоматическое управление памятью – это значит, что не нужно писать дополнительный код для управления памятью.
6. Объектно-ориентированный язык простыми словами можно определить, как подход, при котором программа рассматривается как набор взаимодействующих друг с другом объектов. У каждого объекта в системе есть свойства и поведение, как и у любого реального объекта. Например, объект «машина» имеет свойства (цвет, вес, стоимость) и поведение (может ехать, сигналить, потреблять топливо).
Думаю, теперь стало куда понять, что это такое)
Почему именно Python используют большинство аналитиков?
Ну помимо того, что этот язык один из самых простых в освоение и синтаксис его понятен, он еще предлагает большое количество бесплатных библиотек, которые постоянно развиваются.
Основные библиотеки расширено мы рассмотрим в следующих статьях, а ну а сейчас давайте просто познакомимся:
· Pandas – в библиотеке есть готовые методы для их фильтрации, группировки и объединения данных;
· NumPy - основная библиотека для работы с векторами и матрицами. Можно создавать, изменять формы, умножать и т.д;
· SciPy - линейная алгебра и методы для работы с вероятностными распределениями;
· Matplotlib - библиотека для создания двумерных диаграмм и графиков;
· Scikit-learn - алгоритмы для машинного обучения и интеллектуального анализа данных: кластеризации, регрессии и классификации;
· TensorFlow - библиотека для глубинного обучения, нужна, чтобы тренировать нейронные сети.
Так же не мало важно отметить что через такие инструменты аналитика как для примера Jupiter notebook (либо google colab), можно без труда подключатся к базам данным и с помощью SQL запросов загружать выгружать и трансформировать данные. Ну и про работу с эксель файлами и csv я вообще помолчу.
На этом пока все! Всем добра!