Найти в Дзене
FutureBanking

Качество под контролем: как интегрировать внешние данные во внутренние модели банка?

Что делать, если качество внешних данных по-прежнему оставляет желать лучшего, а принятие ключевых решений на их основе может иметь далеко идущие последствия? Алексей Ерюков, управляющий директор Управления подготовки данных Департамента анализа данных и моделирования Газпромбанка, рассказывает о методе, который позволяет отслеживать отклонения в переменных и своевременно корректировать модель.

— С какими проблемами вам приходится сталкиваться при использовании внешних данных?

А. Ерюков: Основная проблема — их интеграция во внутренние данные компании, для распознавания и объединения которых используются специальные идентификаторы, позволяющие определить, что речь идёт об одном и том же клиенте или заявке. Для внешних данных такого идентификатора нет. И хотя, например, для данных БКИ в качестве идентификатора используются ФИО, серия и номер паспорта и дата рождения, их совершенно недостаточно — на практике встречаются люди с одинаковыми ФИО и одинаковой датой рождения.

6 апреля на форуме Data Day Алексей Ерюков расскажет о контроле качества данных вектора переменных для моделей и о том, как развернуть self-service DQ для команды DS.

Вторая проблема — это, собственно, качество внешних данных. Качество внутренних проще контролировать. При выявлении ошибки её можно оперативно исправить. При работе с внешними данными такой возможности нет. При обсуждении договора на поставку данных можно, конечно, выставлять определённые требования к качеству, но влиять на него или исправлять недочёты не всегда возможно. Приходится работать с тем, что есть.

— В чём опасность таких недочётов?

А. Ерюков: Банковскому руководству ежедневно приходится принимать важные решения, опираясь при этом только на информацию, предоставленную ему аналитиками. Если данные в отчёте будут искажены, решение будет ошибочным, возможно, с далеко идущими последствиями.

При этом требуемый уровень качества данных зависит от конкретных задач. При оперативной оценке продаж кредитов за день в банке можно условно сказать, что выдали 100 млн руб. за день (плюс-минус один миллион). В бухгалтерской отчётности даже плюс-минус одна копейка — недопустимая ошибка.

— Можно ли взять под контроль качество внешних данных?

А. Ерюков: Теоретически самый надёжный способ — сверка качества данных с неким эталоном. Если данные сходятся, с качеством всё в порядке, если нет, нужно анализировать причины расхождения.

Однако при работе с витринами данных для моделей приходится иметь дело с огромным количеством столбцов (где 2 тыс. — не предел) и строк (тут счёт на миллионы). И это не сырые данные из источника, а агрегированные переменные, что делает сверку фактически невозможной.

Для решения этой проблемы...

Продолжение читайте на https://futurebanking.ru/post/4026