Без мониторинга качества данных в моделях машинного обучения банк может выдавать плохие кредиты целый год — и не знать об этом. Команда банка «Открытие» решила задачу мониторинга данных, внедрив собственный метод сравнения многомерных распределений. Как результат – о выдаче плохих кредитов из-за внезапно устаревших моделей можно забыть. Подробнее о реализации проекта – в интервью директора направления Data Science банка «Открытие» Михаила Граденко.
Каковы наиболее распространенные проблемы в работе с данными?
М. Граденко: Можно выделить две группы проблем:
1) проблемы Дата-Инженерии (дубли в данных; пропущенные значения; некорректные типы данных; неверные форматы записей; неполные данные из разных источников), которые решаются соответствующим инструментарием.
2) проблемы Data Science (которые нас и интересуют):
— дрейф данных, а именно:
— изменение распределения переменных, входящих в модель;
— изменение совокупного распределения признакового пространства данных, входящих в модель.
Чем страшны проблемы дрейфа данных и чем обусловлена необходимость мониторинга данных?
М. Граденко: Со временем качество работы любых моделей машинного обучения падает из-за изменений в моделируемых процессах. Новые данные, поступающие в модель, становятся всё менее похожими на те, на которых она обучалась. Если модель деградировала (метрика качества значительно упала), требуется сборка новой обучающей выборки из более актуальных данных и переобучение модели.
Оценивать качество рекомендательных систем можно сразу: человек либо купил товар, либо нет. В скоринговых же моделях целевым событием, как правило, является событие дефолта, определяемое как 90+/12 (просрочка более 90 дней на 12-м месяце). А значит, качество модели можно оценить только через год.
Здесь и возникает проблема мониторинга. Например первые 3 месяца модель могла работать хорошо. Потом поток заемщиков изменился, и ее качество ухудшилось. Без мониторинга данных банк целый год будет выдавать плохие кредиты.
Мониторинг данных позволяет сравнивать текущий поток с тем, на котором модель обучалась, и тем самым отслеживать основания для изменения качества модели.
Какие же методы мониторинга используются банками для решения задачи мониторинга данных, подаваемых в модель?
М. Граденко: Традиционно используются Индекс стабильности популяции PSI, критерий Колмогорова-Смирнова и анализ распределения переменных по бинам. Они позволяют отслеживать изменение в распределении переменных, входящих в модель, и изменение распределение скора, выдаваемого моделью. Но не позволяют...
Читайте далее http://futurebanking.ru/post/3993