В чем разница между линейной и логистической регрессией?
Хотя линейная регрессия подходит для оценки непрерывных значений (например, оценки цены дома), это не лучший инструмент для прогнозирования класса наблюдаемой точки данных. Чтобы оценить класс точки данных, нам нужно какое-то руководство о том, какой класс будет наиболее вероятным для этой точки данных. Для этого мы используем логистическую регрессию.
Как вы знаете, линейная регрессия находит функцию, которая связывает непрерывную зависимую переменную y с некоторыми предикторами (независимыми переменными Х1, Х2 и т. д.). Например, простая линейная регрессия предполагает функцию вида:
Логистическая регрессия - это разновидность линейной регрессии, полезная, когда наблюдаемая зависимая переменная y является категориальной. Он создает формулу, которая прогнозирует вероятность метки класса как функцию независимых переменных.
Логистическая регрессия соответствует специальной s-образной кривой, взяв линейную регрессию и преобразовав числовую оценку в вероятность с помощью следующей функции, которая называется сигмоидной функцией 𝜎:
Отток клиентов с помощью логистической регрессии
Телекоммуникационная компания обеспокоена тем, что количество клиентов, оставляющих свой стационарный бизнес в пользу конкурентов в области кабельного телевидения. Им нужно понять, кто уходит. Представьте, что вы аналитик в этой компании и вам нужно выяснить, кто уходит и почему.
Давайте сначала импортируем необходимые библиотеки:
О наборе данных
Мы будем использовать набор телекоммуникационных данных для прогнозирования оттока клиентов. Это набор исторических данных о клиентах, где каждая строка представляет одного клиента. Данные относительно просты для понимания, и вы можете получить информацию, которую сможете сразу же использовать. Обычно удержание клиентов обходится дешевле, чем приобретение новых, поэтому в центре внимания этого анализа находится прогнозирование клиентов, которые останутся в компании.
Этот набор данных предоставляет информацию, которая поможет вам предсказать, какое поведение поможет вам удержать клиентов. Вы можете проанализировать все необходимые данные о клиентах и разработать целевые программы удержания клиентов.
Набор данных включает информацию о:
- Клиенты, ушедшие в течение последнего месяца - столбец называется Churn
- Услуги, на которые подписался каждый клиент - телефон, несколько линий, Интернет, онлайн-безопасность, онлайн-резервное копирование, защита устройств, техническая поддержка, а также потоковая передача ТВ и фильмов.
- Информация об учетной записи клиента - как долго он был клиентом, договор, способ оплаты, безбумажный счет, ежемесячные платежи и общие расходы
- Демографические данные о клиентах - пол, возраст, есть ли у них партнеры и иждивенцы.