Найти тему
MakeBetter[Code] Blog

Введение в Seaborn | Регрессионный анализ

Регрессионные модели используются для прогнозирования непрерывной переменной. Это означает, что мы пытаемся найти функцию, которая наилучшим образом описывает связь между независимой переменной и зависимой. В линейной регрессионной модели предполагается, что связь линейная. В этой статье мы узнаем о линейных регрессионных моделях с применением Seaborn.

Прежде чем начать, давайте загрузим набор данных. Мы будем использовать набор данных Titanic для изучения моделей линейной регрессии с помощью Seaborn. Набор данных "Титаник" - это набор данных о пассажирах и членах экипажа судна RMS Титаник; очень популярный датасет, который используется во многих курсах по изучению науки данных.

Найти его можно по следующей ссылке: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

Что удобно, по этой же ссылке его можно загрузить сразу в pandas, используя функцию read_csv.

В наборе данных содержится информация о пассажирах и членах экипажа судна RMS Titanic: о их классе, поле, возрасте, стоимости проезда и выживании.

Мы будем использовать эти данные для прогнозирования выживаемости пассажиров.

Давайте посмотрим на код:

Здесь мы импортируем библиотеки pandas, seaborn, matplotlib и numpy. Затем мы читаем набор данных и печатаем первые пять строк. Затем мы строим график линейной регрессионной модели с помощью библиотеки seaborn. Аргумент fit_reg используется для построения линии регрессии, а аргумент scatter используется для построения точек данных (в нашем примере в график мы их не включаем).

А вот резульат:

-2

Мы видим четкую тенденцию в данных, которая показывает, что в среднем чем старше вы, тем ниже ваши шансы на выживание.

Давайте попробуем добавить еще одну переменную:

-3

И вот результат:

-4

Здесь, как мы можем заметить, тренд радикально отличается в зависимости от третьей переменной "Пол": если вы женщина, то чем старше вы, тем больше у вас шансов на выживание. Заметьте, что наклон линии, показывающей зависимость выжываемости женщин менее крут, что указывает на меньшую положительную зависимость переменной, в сравнении с отрицательной мужчин.

В заключение

Вкратце напомним, что регрессия - это мощный метод, который позволяет нам делать прогнозы относительно будущих событий. Мы показали вам, как выполнить простую линейную регрессию с использованием набора данных "Титаник".

Большое спасибо за прочтение!

Наука
7 млн интересуются