Добавить в корзинуПозвонить
Найти в Дзене
Герман Геншин

Как я изучаю и визуализирую данные с помощью Python и Seaborn

Наверное, вы слышали, что Python отлично подходит для анализа данных. Ищете способ визуализировать данные, который был бы простым в использовании и позволял создавать красивые графики? Возможно, Seaborn — это именно то, что вам нужно. Я остановил свой выбор на библиотеке визуализации данных Seaborn, разработанной Майклом Уаском, потому что она кажется достаточно простой в освоении. Я хотел разобраться в анализе данных и статистике на Python, поскольку это популярный язык для работы с данными, и я уже имел некоторые знания. Ранее я изучал основные принципы статистики и теории вероятностей в колледже, но прошло более 20 лет, и, возможно, некоторые моменты уже стерлись из памяти. Я никогда не был силен в вычислениях вручную, но существует множество хороших открытых программ для статистики и математики, которые позволяют мне изучать концепции, не углубляясь в уравнения и расчеты. 11 приложений по науке и математике для Linux, чтобы освоить ваши занятия Эти приложения для Linux предоставля
Оглавление

Резюме

Наверное, вы слышали, что Python отлично подходит для анализа данных. Ищете способ визуализировать данные, который был бы простым в использовании и позволял создавать красивые графики? Возможно, Seaborn — это именно то, что вам нужно.

Почему я выбрал Seaborn

Я остановил свой выбор на библиотеке визуализации данных Seaborn, разработанной Майклом Уаском, потому что она кажется достаточно простой в освоении.

Я хотел разобраться в анализе данных и статистике на Python, поскольку это популярный язык для работы с данными, и я уже имел некоторые знания. Ранее я изучал основные принципы статистики и теории вероятностей в колледже, но прошло более 20 лет, и, возможно, некоторые моменты уже стерлись из памяти.

Я никогда не был силен в вычислениях вручную, но существует множество хороших открытых программ для статистики и математики, которые позволяют мне изучать концепции, не углубляясь в уравнения и расчеты.

11 приложений по науке и математике для Linux, чтобы освоить ваши занятия

Эти приложения для Linux предоставляют вам те же инструменты, что используют профессионалы в области математики и науки.

Matplotlib известен для создания визуализаций данных на Python, однако его осваивать бывает непросто. Seaborn же может создать красивые графики и имеет простой синтаксис. Я также вооружен книгой Schaum's Outlines по статистике.

Установка Seaborn

Если вы уже используете Python, один из лучших способов установить Seaborn — через PIP:

У меня есть среда Mamba под названием "stats", которая включает другие популярные библиотеки, такие как NumPy, SciPy и Pandas.

Я активирую её с помощью этой команды в командной строке

Я могу выполнять команды Python в IPython или Jupyter.

Поиск и импорт наборов данных

Чтобы начать работать с Seaborn, импортируйте его с помощью стандартной команды импорта Python

Принято использовать "sns" как сокращение для "seaborn", так как это короче.

Вы можете импортировать данные из электронных таблиц, таких как Excel, но «разделенные запятыми» файлы или CSV также распространены, особенно в наборах данных, которые можно найти в интернете. Эти файлы можно читать с помощью библиотеки Pandas. Чтобы загрузить CSV файл из текущего каталога:

Seaborn также имеет несколько встроенных наборов данных. Чтобы увидеть их, используйте метод get_dataset_names:

-2

Есть несколько интересных наборов, но мы будем использовать набор данных о чаевых в ресторанах.

Сначала загрузим данные в dataframe Pandas:

Dataframe организован в колонки, похожие на электронные таблицы. Мы получим обзор данных с помощью метода head:

-3

Построение гистограмм с Seaborn

Одним из полезных графиков является гистограмма, показывающая, как распределены значения набора данных. Давайте взглянем на гистограмму общей суммы чеков в ресторане, столбец «total_bill», с помощью метода displot:

-4

Вы можете заметить, что она почти напоминает колокол нормального распределения, хотя хвост сдвинут вправо, а пик находится больше слева. Поле «data=» — это удобная функция для работы с dataframes, так как не нужно каждый раз вводить «tips["column"]». Имя datafram'а — это источник данных.

Создание точечных диаграмм

Одним из полезных аспектов визуализации данных является возможность увидеть взаимосвязь между столбцами. Хороший способ сделать это — построить точечную диаграмму, которая отображает значения одного столбца относительно другого. Давайте изобразим общую сумму чека против чаевых:

-5

На оси x снова будет общая сумма чека, а на оси y — сумма чаевых.

Построение линейных регрессий

Если внимательно посмотреть на точечную диаграмму, то можно заметить, что между значениями можно провести прямую линию. Это означает, что существует положительная линейная зависимость: сумма чаевых увеличивается по мере роста общей суммы чека.

Мы можем провести линию регрессии через эту точечную диаграмму, используя метод regplot:

-6

Вы увидите график, похожий на ранее созданный, но с линией, которая представляет модель линейной зависимости. Это называется «линейная регрессия наименьших квадратов».

Также есть затененная область выше и ниже линии. Это представляет собой доверительный интервал, так как линейная регрессия всегда содержит некоторую неопределенность в том, как она будет сочетаться с точками данных.

Вы можете подгонять не только прямые линии, но и кривые, однако это выходит за рамки данной статьи. Этот учебник лишь затрагивает основы того, как визуализировать и изучать данные с помощью Python и Seaborn.

10 терминов Python, которые должны знать начинающие программисты

Эти десять терминов помогут вам быстрее адаптироваться.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Вы также можете читать наши материалы в: