Без мониторинга качества данных в моделях машинного обучения банк может выдавать плохие кредиты целый год — и не знать об этом. Команда банка «Открытие» решила задачу мониторинга данных, внедрив собственный метод сравнения многомерных распределений. Как результат – о выдаче плохих кредитов из-за внезапно устаревших моделей можно забыть. Подробнее о реализации проекта – в интервью директора направления Data Science банка «Открытие» Михаила Граденко. Каковы наиболее распространенные проблемы в работе с данными?
М. Граденко: Можно выделить две группы проблем:
1) проблемы Дата-Инженерии (дубли в данных; пропущенные значения; некорректные типы данных; неверные форматы записей; неполные данные из разных источников), которые решаются соответствующим инструментарием.
2) проблемы Data Science (которые нас и интересуют):
— дрейф данных, а именно:
— изменение распределения переменных, входящих в модель;
— изменение совокупного распределения признакового пространства данных, входящих в м