Найти в Дзене
MakeBetter[Code] Blog

Введение в Seaborn | Гистограммы и линейные графики

Оглавление
"Гистограмма" | Credit to craiyon.com
"Гистограмма" | Credit to craiyon.com

Наука о данных - это относительно новая дисциплина, объединяющая компьютерные науки, статистику и математику. Это наука о сборе, анализе и визуализации данных для получения значимых выводов.

Наука о данных - это практика применения научных методов, процессов, алгоритмов и систем для извлечения знаний и представлений из данных в различных формах, включая структурированные и неструктурированные данные. Эта область является междисциплинарной и опирается на методы и технологии из различных областей, включая статистику, математику, информатику, информационные науки и машинное обучение; она стала важнейшим компонентом индустрии информационных технологий.

Как специалист по анализу данных, вы будете работать с большим количеством данных, а для обработки и анализа этих данных вы будете использовать Python. Но у Python есть свои ограничения: например, в нем нет встроенных возможностей построения графиков. Поэтому для их построения вам придется использовать сторонние библиотеки. Seaborn - это мощная библиотека для построения графиков. Она написана на языке Python и является отличным способом визуализации данных. В этой статье мы узнаем, как использовать Seaborn для построения двух основных типов графиков.

Гистограммы

Гистограммы - один из наиболее распространенных типов графиков, используемых в науке о данных. Они показывают распределение переменной: ось X показывает значения переменной, а ось Y - количество наблюдений, которые попадают в каждый промежуток. Например, гистограмма возраста в выборке людей показывает количество людей в каждой возрастной группе.

Гистограммы часто используются для определения формы распределения. Например, гистограмма возраста в выборке людей покажет, что распределение перекошено вправо, если в старших возрастных группах больше людей, чем в младших.

Гистограммы также используются для выявления выпадающих значений. Например, та же гистограмма возраста в выборке людей покажет, что есть несколько человек, которые намного старше остальной части выборки. Они также полезны для выявления пробелов в данных. Так, например, гистограмма возраста может показать, что в возрастной группе от 50 до 60 лет нет ни одного человека. Это указывает на то, что в данных есть пробел - не хватает некоторых значений в этом диапазоне.

Вот пример того, как создать простую гистограмму с помощью seaborn:

-2

В этом примере мы строим график переменной total_bill (общий счет) в наборе данных.

  • Аргумент hist=True указывает seaborn построить гистограмму.
  • Аргумент bins=30 указывает seaborn разделить диапазон переменной на 30 интервалов.
  • Аргумент kde=False указывает seaborn строить гистограмму, а не оценку плотности ядра.
  • Аргумент rug=True указывает seaborn на то, что на гистограмму нужно наложить диаграмму в виде коврика. На нем отображаются точные значения переменной, что помогает выявить выпадающие значения.

И вот результат:

-3

Как мы видим, график перекошен влево, что означает, что в total_bill гораздо больше записей, лежащих между 10 и ~27 долларами, чем остальных. Мы также можем четко видеть распределение этих данных.

Линейные графики

Линейные графики - еще один распространенный тип графиков, используемых в науке о данных. Они показывают взаимосвязь между двумя переменными. Ось X показывает значения одной переменной, а ось Y - значения другой переменной.

Например, линейный график роста и веса в выборке людей показывает рост каждого человека по оси X, а его вес - по оси Y. Линейный график показывает рост и вес каждого человека в виде точки на графике, и через точки будет проведена линия, показывающая связь между ростом и весом.

Линейный график также может использоваться для отображения тенденций в данных и демонстрации корреляции между двумя переменными. Силу корреляции или тенденции можно определить по наклону этой линии.

В seaborn линейный график мы строим так:

seaborn.lineplot(x, y, data, **kwargs)

Где x - первая переменная, y - вторая, и data - фрейм с вашими данными.

Небольшой пример

-4

(Файл lineplot.csv содержит следующее)

height,weight
174,76
180,97
156,61
160,63
150,45

После запуска программы получаем следующий результат:

-5

Как мы видим, на графике прослеживается четкая тенденция к росту, что означает, что с увеличением X увеличивается и Y, или, что (в данной выборке) чем больше ваш рост, тем больше вы весите.

В заключение

Сегодня вы узнали, как использовать Seaborn для создания линейных графиков и гистограмм. Подводя итог, можно сказать, что линейные графики отлично подходят для отображения тенденций в данных, а гистограммы - для показа распределения данных.

Это первая из серии статья о Seaborn, и поэтому я хотел бы получить ваши отклики о том, что вы думаете о её содержании. Если у вас есть предложения, вопросы или замечания, пожалуйста, оставьте их в разделе комментариев ниже.

А также подпишитесь на этот блог, если хотите быть в курсе выхода следующей статьи из этой серии :)

Спасибо за прочтение!