120 подписчиков

4. Библиотеки NumPy, Pandas и другие научные библиотеки Python.

13 октября 202413 окт 2024

3 мин

Python используют для анализа данных и машинного обучения, подключая к нему различные библиотеки: Pandas, Matplotlib, NumPy, TensorFlow и другие. Каждая из них используется для решения конкретных задач. NumPy — это библиотека линейной алгебры, разработанная на Python. Почему большое количество разработчиков и экспертов предпочитают ее другим библиотекам Python для машинного обучения? Практически все пакеты Python, использующиеся в машинном обучении, так или иначе опираются на NumPy. В библиотеку входят функции для работы со сложными математическими операциями линейной алгебры, алгоритмы преобразования Фурье и генерации случайных чисел, методы для работы с матрицами и n-мерными массивами. Модуль NumPy также применяется в научных вычислениях. В частности, он широко используется для работы со звуковыми волнами и изображениями. Фундаментальный пакет для научных вычислений с использованием Python. Pandas — главная библиотека в Python для работы с данными. Её активно используют аналитики дан

Оглавление

NumPy
Pandas
Другие научные библиотеки

NumPy

NumPy — это библиотека линейной алгебры, разработанная на Python. Почему большое количество разработчиков и экспертов предпочитают ее другим библиотекам Python для машинного обучения?

Практически все пакеты Python, использующиеся в машинном обучении, так или иначе опираются на NumPy. В библиотеку входят функции для работы со сложными математическими операциями линейной алгебры, алгоритмы преобразования Фурье и генерации случайных чисел, методы для работы с матрицами и n-мерными массивами.

Модуль NumPy также применяется в научных вычислениях. В частности, он широко используется для работы со звуковыми волнами и изображениями.

Фундаментальный пакет для научных вычислений с использованием Python.

Pandas

Pandas — главная библиотека в Python для работы с данными. Её активно используют аналитики данных и дата-сайентисты. Библиотека была создана в 2008 году компанией AQR Capital, а в 2009 году она стала проектом с открытым исходным кодом с поддержкой большого комьюнити.

Вот для каких задач используют библиотеку.

Аналитика данных: продуктовая, маркетинговая и другая. Работа с любыми данными требует анализа и подготовки: необходимо удалить или заполнить пропуски, отфильтровать, отсортировать или каким-то образом изменить данные. Pandas в Python позволяет быстро выполнить все эти действия, а в большинстве случаев ещё и автоматизировать их.

Data science и работа с большими данными. Pandas помогает подготовить и провести первичный анализ данных, чтобы потом использовать их в машинном или глубоком обучении.

Статистика. Библиотека поддерживает основные статистические методы, которые необходимы для работы с данными. Например, расчёт средних значений, их распределение по квантилям и другие.

Работа Pandas (panel data) с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временными рядами.

Данные в Pandas представлены в двух видах: Series и DataFrame. Разберёмся с каждым из них.

Series — это объект, который похож на одномерный массив и может содержать любые типы данных. Проще всего представить его как столбец таблицы с последовательностью каких-либо значений, у каждого из которых есть индекс — номер строки.

на экране это будет так:

Series отображается в виде таблицы с индексами элементов в первом столбце и значениями во втором.

DataFrame — основной тип данных в Pandas, вокруг которого строится вся работа. Его можно представить в виде обычной таблицы с любым количеством столбцов и строк. Внутри ячеек такой «таблицы» могут быть данные самого разного типа: числовые, булевы, строковые и так далее.

У DataFrame есть и индексы строк, и индексы столбцов. Это позволяет удобно сортировать и фильтровать данные, а также быстро находить нужные ячейки.

Создадим простой DataFrame с помощью словаря и посмотрим на его отображение:

Мы видим таблицу, строки которой имеют индексы от 0 до 3, а «индексы» столбцов соответствуют их названиям. Легко заметить, что датафрейм состоит из трёх Series: Город, Год основания и Население. Оба типа индексов можно использовать для навигации по данным.

Pandas позволяет импортировать данные разными способами. Например, прочесть их из словаря, списка или кортежа. Самый популярный способ — это работа с файлами .csv, которые часто применяются в анализе данных. Для импорта используют команду pd.read_csv().

Ссылка на документацию библиотеки pandas

https://pandas.pydata.org/

Ссылка на репозиторий с данными вторичного рынка автомобилей для тренировки

https://github.com/dayekb/mpti_ml/tree/main/data

Ссылка на учебное пособие (Глава 2. Исследовательский анализ данных - библиотека Pandas для анализа данных)

https://elar.urfu.ru/handle/10995/122740

Другие научные библиотеки

* SciPy – это программное обеспечение с открытым исходным кодом для математики, естественных наук и инженерии. Пакет построен на базе низкоуровневой библиотеки NumPy. Если вы импортируете SciPy, то NumPy отдельно импортировать не нужно.

Библиотека включает в себя модули для статистики, оптимизации, интеграции, линейной алгебры (scipy.linalg работает намного быстрее numpy.linalg), преобразований Фурье, интегрирование и решение дифуров, обработки сигналов и изображений (scipy.ndimage), решателей ODE и многого другого. Версия 1.6.2. сейчас используется.

* Apache Spark – уникальный аналитический движок для крупномасштабной обработки данных.

* Dask - параллельные вычисления с планированием задач.

* Altair – это библиотека статистической визуализации для Python.