Оценка рисков– это традиционный локомотив Data Science в финансовом секторе. Цель построения любого скоринга –нарастить количество хороших кейсов, не увеличивая процент плохих. Это очень важная и сложная задача, которая улучшает качество кредитного портфеля кредитной организации. В Альфа-Банке оценка рисков розничного кредитования полностью переведена на модельный подход. О том, как правильно построить работу с отказными заявками рассказал Алексей Каширин, руководитель департамента продвинутой аналитики, Альфа-Банк.
Сегодня уже не нужно обосновывать ценность модельного подхода и доказывать, зачем нужно переводить ручные процессы на модели. Всем понятно, что это прямой путь к улучшению качества и скорости реагирования на решение задач любого уровня сложности по всем направлениям деятельности кредитной организации.
Ранее входящий поток кредитных заявок отрабатывался согласно определенным внутренним правилам кредитной организации и делился на одобренные и отказные. Пока сохраняются ручные подходы к обработке водящих данных, такой процесс очень консистентно-устойчивый (см. слайд выше). Все хорошо понимают, как работать с «зелеными» предодобренными заявками, как их скорить. Отказные «красные» же заявки просто откладываются и забываются, что, по сути, соответствует внутренним регламентам. При этом ручные правила разделения недостаточно точны и персонифицированы - существует объективный риск того, что в отказные заявки могли попасть и потенциально хорошие клиенты, которых необходимо выявить и научиться с ними работать, расширив воронку, не повышая общего уровня риска.
Какая модель решит данную задачу?
Отвечая на данный вопрос и прорабатывая решение, все сталкиваются с фундаментальной научной проблемой. Модель обучается на «хороших» одобренных заявках, но при этом у аналитиков чаще всего нет данных по отказным заявкам. Модель учится на цензурированной выборке, а должна работать на совокупной- это приводит к гарантировано недостоверному результату. Но если поработать с правильными входными данными, то возможен иной результат.
Где взять «правильные» данные, если таковых нет?
Если посмотреть на слайд ниже, то справа от CUTOFF все прозрачно и понятно, слева – информации нет, что далеко от границы CUTOFF не критично. А вот в районе границы есть серая зона, которая может дать потенциальных клиентов, если их правильно оценить.
Иногда такая оценка делается очень грубо, для получения среднерыночных значений искусственно присваивается уровень вероятности дефолта. Согласитесь, такое решение не верно и несет в себе риски.
Здесь можно предложить два варианта решений. Один из них - запуск «ручейков», когда на небольшой подвыборке кредиты выдаются всем без разбора и далее оцениваем результат. Это самый честный, но очень дорогой и долгий для банка путь, потому что Bad Rate вырастает и за него нужно платить.
Второй способ работы с отказниками – использование внешних источников данных. Например, банк А отказал клиенту, а банк Б – выдал кредит, и клиент хорошо его обслуживает. Чтобы в следующий раз избежать ошибки потери клиента, имеет смысл получить информацию о клиенте (при наличии его согласия) у бюро кредитных историй. Это могут быть данные по текущим и закрытым кредитам, транзакционные или поведенческие истории. Этот подход эффективен, но имеет свои особенности. Нужно помнить о юридической стороне и использовать в оценке данные лишь в рамках разрешенного. Цензурированности в такой оценке становится меньше, но все равно остаются заявки, по которым кредитная организация не дала одобрения. За получаемые данные всегда нужно платить и это не дешевое удовольствие.
Что делать с оставшимися «неопределенными» клиентами?
Итак, при реализации этих решений у заявки есть три пути попасть в одобренные (см. слайд выше). Во-первых, стандартный, во-вторых, по части отказников решение меняется на одобрение, так как получены данные от БКИ и, в-третьих, есть путь (челленждер), по которому некоему подмножеству заявок без разбора дается одобрение для применения данных по ним в предиктивной аналитике.
По сути, это три выборки: внутренняя ручная, внешняя и челленджер. Это обязательная программа, на этапе которой заканчивается подготовительная работа, и ее делают все аналитики. Дальше начинаются некие развилки, которые определяют успешность проекта, и о которых нужно поговорить.
Общего универсального решения не существует, так как все зависит от накопленного количества и качества данных, и имеющегося инструментария. Например, в Альфа-Банке сначала было разработано и внедрено решение для вторичных предложений, которое показало отличные результаты, но это же решение совершенно не подошло для оценки первичных клиентов.
Варианты проработки вопроса
Не стоить бояться проводить исследования для каждого вида задач. Здесь показателен опыт Альфа-Банка по поиску решения для построения нейросетей на данных БКИ с несколькими вариантами проработки вопроса. Краткое резюме:
- объединять все три выборки в одну не целесообразно, такое решение не эффективно из-за неоднородности выборки, где данные челленджера просто теряются в общей массе остальных;
- вариант последовательного дообучения нейросети сложен технически, но потенциально может дать нужный результат;
- каждой выборке можно присвоить вес, подчеркнув ее важность, и скрупулёзно подбирая веса получить некий ответ;
При этом важно помнить, что среди предложенных решений единого чемпиона по всем вариантам выборки, скорее всего, не будет. И здесь нужно будет сделать выбор. Тестируя перечисленные выше варианты, мы решили, что наиболее верное решение – работа с данными челленджера, так как структурно эта выборка больше всего похожа на входящий поток, с которым будет работать модель, замеряющая всех потенциальных клиентов без градации. И здесь лучше всех отработал третий из перечисленных вариантов - подход с подбором весов выборки.
Результаты тестирования и внедрения
Благодаря перебору весов, количество выдач розничных кредитов выросло на 14,6% от всего объема выдач банка. Это большое количество новых довольных клиентов, увеличение портфеля и дохода организации.
Достоинством этого подхода, помимо перечисленных выше, также является возможность отработки ИИ с высокой точностью по любому продукту банка. Теперь организация применяет высокоэффективный процесс, актуальный на ближайшие пару лет.
Как видно на слайде, серой зоны неизвестности больше нет, обеспечен контроль входящего потока новых клиентов (cut off сдвинут), бизнес доволен, проработан большой задел на будущее.
И самое важное, решена проблема отсутствия точной информации по отказам цензурированной выборки. Чем полнее и точнее размечается входящий поток отказников, тем ниже риск принятия неверного решения и потери прибыли банка из-за отказа неверно оцененному клиенту.
В процессе кредитования Reject Inference – это как раз «тот пятый элемент», без которого переход на модельный подход невозможен.