Найти тему
FutureBanking

Прогрессивные методы мониторинга качества данных для моделей машинного обучения

Без мониторинга качества данных в моделях машинного обучения банк может выдавать плохие кредиты целый год — и не знать об этом. Команда банка «Открытие» решила задачу мониторинга данных, внедрив собственный метод сравнения многомерных распределений. Как результат – о выдаче плохих кредитов из-за внезапно устаревших моделей можно забыть. Подробнее о реализации проекта – в интервью директора направления Data Science банка «Открытие» Михаила Граденко.

Каковы наиболее распространенные проблемы в работе с данными?

М. Граденко: Можно выделить две группы проблем:

1) проблемы Дата-Инженерии (дубли в данных; пропущенные значения; некорректные типы данных; неверные форматы записей; неполные данные из разных источников), которые решаются соответствующим инструментарием.

2) проблемы Data Science (которые нас и интересуют):
— дрейф данных, а именно:
— изменение распределения переменных, входящих в модель;
— изменение совокупного распределения признакового пространства данных, входящих в модель.

Чем страшны проблемы дрейфа данных и чем обусловлена необходимость мониторинга данных?

М. Граденко: Со временем качество работы любых моделей машинного обучения падает из-за изменений в моделируемых процессах. Новые данные, поступающие в модель, становятся всё менее похожими на те, на которых она обучалась. Если модель деградировала (метрика качества значительно упала), требуется сборка новой обучающей выборки из более актуальных данных и переобучение модели.

Оценивать качество рекомендательных систем можно сразу: человек либо купил товар, либо нет. В скоринговых же моделях целевым событием, как правило, является событие дефолта, определяемое как 90+/12 (просрочка более 90 дней на 12-м месяце). А значит, качество модели можно оценить только через год.

Здесь и возникает проблема мониторинга. Например первые 3 месяца модель могла работать хорошо. Потом поток заемщиков изменился, и ее качество ухудшилось. Без мониторинга данных банк целый год будет выдавать плохие кредиты.

Мониторинг данных позволяет сравнивать текущий поток с тем, на котором модель обучалась, и тем самым отслеживать основания для изменения качества модели.

Какие же методы мониторинга используются банками для решения задачи мониторинга данных, подаваемых в модель?

М. Граденко: Традиционно используются Индекс стабильности популяции PSI, критерий Колмогорова-Смирнова и анализ распределения переменных по бинам. Они позволяют отслеживать изменение в распределении переменных, входящих в модель, и изменение распределение скора, выдаваемого моделью. Но не позволяют...

Читайте далее http://futurebanking.ru/post/3993