Регрессионные модели используются для прогнозирования непрерывной переменной. Это означает, что мы пытаемся найти функцию, которая наилучшим образом описывает связь между независимой переменной и зависимой. В линейной регрессионной модели предполагается, что связь линейная. В этой статье мы узнаем о линейных регрессионных моделях с применением Seaborn.
Прежде чем начать, давайте загрузим набор данных. Мы будем использовать набор данных Titanic для изучения моделей линейной регрессии с помощью Seaborn. Набор данных "Титаник" - это набор данных о пассажирах и членах экипажа судна RMS Титаник; очень популярный датасет, который используется во многих курсах по изучению науки данных.
Найти его можно по следующей ссылке: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv
Что удобно, по этой же ссылке его можно загрузить сразу в pandas, используя функцию read_csv.
В наборе данных содержится информация о пассажирах и членах экипажа судна RMS Titanic: о их классе, поле, возрасте, стоимости проезда и выживании.
Мы будем использовать эти данные для прогнозирования выживаемости пассажиров.
Давайте посмотрим на код:
Здесь мы импортируем библиотеки pandas, seaborn, matplotlib и numpy. Затем мы читаем набор данных и печатаем первые пять строк. Затем мы строим график линейной регрессионной модели с помощью библиотеки seaborn. Аргумент fit_reg используется для построения линии регрессии, а аргумент scatter используется для построения точек данных (в нашем примере в график мы их не включаем).
А вот резульат:
Мы видим четкую тенденцию в данных, которая показывает, что в среднем чем старше вы, тем ниже ваши шансы на выживание.
Давайте попробуем добавить еще одну переменную:
И вот результат:
Здесь, как мы можем заметить, тренд радикально отличается в зависимости от третьей переменной "Пол": если вы женщина, то чем старше вы, тем больше у вас шансов на выживание. Заметьте, что наклон линии, показывающей зависимость выжываемости женщин менее крут, что указывает на меньшую положительную зависимость переменной, в сравнении с отрицательной мужчин.
В заключение
Вкратце напомним, что регрессия - это мощный метод, который позволяет нам делать прогнозы относительно будущих событий. Мы показали вам, как выполнить простую линейную регрессию с использованием набора данных "Титаник".
Большое спасибо за прочтение!