Какой заемщик идеален для банка? Как считается скоринг? Почему кому-то с одинаковой зарплатой отказывают в ипотеке, а кому-то - нет? Какие факторы определяют решение банкиров выдать кредит или отказать? Результаты исследования факторов скоринга банков для определения надежности заемщиков.
Проектная работа по анализу данных: Исследование надежности заемщиков
В качестве финального проекта очередного спринта я делаю проекты. Надо их изучить, почистить, подготовить к исследованию - и проанализировать.
✔️ Подписывайтесь на мой Телеграм!
Данные
- данные в csv-формате на 20000 строк наблюдений и 10 показателей.
Описание переменных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита
Предварительные выводы из корреляционной матрицы
- чем больше человек работает (days_employed), тем меньше у него долг (debt), k = -0.042345. Другими словами, при увеличении число дней занятости на 1 день, долг снижается в 0.042 раз;
- чем больше у человека детей(children), тем больше у него долгов (debt), k = 0.024769. Другими словами, при появлении в семье еще одного ребенка, долг увеличивается в 0.02 раза;
- при росте дохода (total_income) уменьшается долг (debt), k = -0.012596. Другими словами, при увеличении дохода на 1 руб, долг снижается в 0.012 раз.
Выводы корреляционной матрицы не дают точных коэффициентов, но помогают сориентироваться в общей зависимости переменных между собой.
Кроме того, в данных может присутствовать мультиколлинеарность, гетероскедистичность и эндогенность, а также присутствовать латентные (скрытые) факторы влияния, что тоже делает полученные коэффициенты не более, чем интуитивными и невозможными для использования в регрессионном анализе.
1 - Есть ли зависимость между количеством детей и возвратом кредита в срок?
- cамые ненадежные заемщики с самой высокой долей просрочек 0.097 - это многодетные семьи с 4-мя детьми;
- самые надежные заемщики с самой низкой долей просрочек по кредиту 0.075 - это заемщики без детей.
Интересно, что для семей с пятью детьми, доля просрочек как будто равна нулю. Однако, судя по тому, что для многодетных детей с 4-мя детьми доля просрочек максимальная, было бы ошибочным сделать вывод о том, что многодетные семьи с 5-ю детьми являются более надежными заемщики, чем оные с четырьмя.
2 - Есть ли зависимость между семейным положением и возвратом кредита?
- одинокие заемщики без семьи (family_status = 'Не женат / не замужем') имеют наибольшую долю просрочек по кредиту (0.097). Это неожиданно, ведь выше был вывод о том, что семьи БЕЗ детей платят кредит исправно.
Однако теперь можно расширить вывод о том, что мало не иметь детей, чтобы являться надежным заемщиком для банка, надо еще и не быть одиноким (быть женатым / замужем);
- наименьшая доля просрочек (0.66) по кредиту выявлена у овдовевших супругов (family_status = 'вдовец / вдова').
3 - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- самая высокая доля просрочек по кредиту (0.09) у потенциальных заемщиков из категории 'Е' с уровнем дохода 0-30000 руб;
- далее по росту надежности следуют потенциальные заемщики из категорий 'А' с доходом выше 1000000 руб (доля просрочек = 0.08) и 'С' с доходом 50001–200000 руб (доля просрочек = 0.084);
- наконец, самые надежные заемщики попадают в категорию 'D' с доходом 30001–50000 руб (доля просрочек = 0.06). Получается, что исправнее всего кредит платят заемщики с доходом 30001–50000 руб.
Учитывая, что Росстат на 4 кв. 2021 года заявил среднюю зарплату по России ~ 54000 руб, получается, что самые надежные заемщики, которые зарабатывают _ниже_ среднего по России.
Данный вывод сложно обобщить для всей России, рекомендовано исследование по каждому региону РФ.
4 - Как разные цели кредита влияют на его возврат в срок?
- самые ненадежные заемщики те, кто берут кредиты на образование (доля просрочки 0.092) и покупку автомобиля (0.93);
- далее по росту надежности следуют заемщики, которые берут кредиты на проведение свадьбы (доля просрочки = 0.079);
- самые надежные заемщики - те, кто берут кредиты на операции с недвижимостью (доля просрочки = 0.072).
Идеальные заемщики для банка при рассмотрении заявки на кредиты - это:
- желающие взять ипотечный кредит (не автокредит, не кредит на образование и не автокредит);
- семейные люди без детей, желательно вдовец или вдова;
- с уровнем дохода на 10-15% ниже среднестатического по России 30001–50000 руб.
Как вам выводы? Согласны с ними, если говорить о реальной жизни?
Читайте также про недвижимость:
- "Снижения цен на жилье в России ожидать НЕ стоит". Ценовой пузырь на рынке недвижимости. Ошибки инвесторов