Найти тему
Data Governance для чайников

DQ: Разработка мероприятий по поддержанию наивысшего качества данных

Оглавление
Highest Quality
Highest Quality

Продолжаем разговор про качество данных. Ранее уже эту тему поднимали в статье Качество данных в банке. В статье разбирались с истоками: откуда вообще возникло движение по управлению качеством данных. Также были описаны основные критерии или характеристики качества данных в том виде, как их трактует регулятор в банковской сфере - Центральный банк России (Положение 716-П). На самом деле критериев больше, основная их часть описана в библии по данным - DAMA-DMBOK, но, в принципе, можно ограничиться базовым набором из 716-П (работает для любой отрасли).

А что же делать дальше? А теперь нужно создать методику обеспечения качества данных, спроектировать процесс, внедрить его и контролировать исполнение требований к качеству, а ещё понадобиться... да много чего может понадобиться, но всё это в комплексе называется Разработка мероприятий по управлению качеством данных в организации.

Мероприятия по управлению качеством данных можно разделить на:

  • превентивные - предотвращают появление некачественных данных;
  • корректирующие - выявляют и исправляют некачественные данные;
  • контролирующие - готовят отчеты, измеряют метрики, показывают уровни качества данных.

Большинство организаций начинают свою борьбу за качество именно с корректирующих мер и, наверное, это позволит достичь им приемлемого качества данных. Но мы с вами все взрослые люди :) и понимаем, что бороться надо с причиной, а не с последствиями. Поэтому достичь наивысшего качества данных возможно только при внедрении и превентивных, и корректирующих мероприятий.

Заглянем в нашу библию - что там есть по поводу методов, обеспечивающих качество данных (немного переструктурирую, чтобы было понятнее).

Превентивные методы контроля качества данных:

1. Контроль данных на входе. Имеется в виду на любом входе: вводите вы их вручную в системы, передаете по интеграционному потоку, загружаете из внешних файлов. Всё нужно проверять.

1.1. Обеспечение соблюдения бизнес-правил: тут важно вспомнить, что бизнес-правила у нас описываются в процессе моделирования данных. Зачем это делается? Чтобы правила были машиночитаемыми. Бизнес-правила задокументированные не по стандартам, а в вольном стиле через поток сознания, не подойдут для проверки, точнее такие проверки будут производиться долго и дорого. Но уже хорошо, если бизнес-правила задокументированы, а не просто лежат в головах бизнес-экспертов - в этом случае каждый раз нужно будет "доставать" бизнес-эксперта :), чтобы понять качественно мы обработали данные или нет.

1.2. Контроль качества внешних источников: данные можно загружать только из проверенных источников и только в установленных (утвержденных) в вашей организации форматах и шаблонах, все данные должны соответствовать критерию согласованности.

2. Подготовка и обучение персонала: в организации должна внедряться и пропагандироваться культура управления данными.

3. Внедрение практики Владения данными. Вам потребуются новые роли, которые будут предоставлять бизнес-требования к данным, контролировать и отвечать за качество данных. Самая важная среди новых ролей - роль Владелец данных.

4. Формализованный контроль изменений. Я придерживаюсь подхода, когда контролировать нужно изменения на всём ИТ-ландшафте, а не только в хранилище. В противном случае мы попадаем в ловушку, когда снова будем бороться с последствиями, а не с причиной брака. Чтобы контролировать изменения на всём ИТ-ландшафте, нам потребуется включить мероприятия по контролю качества данных в производственный цикл ИТ, т.е. процесс моделирования данных должен стать обязательным пререквизитом для любой разработки, для любого изменения в информационных системах. Другими словами, процесс сбора бизнес-требований должен включать: сбор бизнес-требований к данным, документирование бизнес-правил и их визуализацию - создание логических моделей данных.

Корректирующие меры контроля качества данных:

  1. Автоматизированное исправление некачественных данных. У вас должны быть разработаны и внедрены средства автоматической проверки, которые настраиваются по заранее собранным и задокументированных правилам/шаблонам (бизнес-требования и бизнес-правила), а также подготовлены алгоритмы исправления найденных несоответствий шаблонам и стандартам, и сервисы автоматической замены брака вновь сгенерированными значениями. Мы говорим о системах принятия решений, которые работают в полностью автоматизированном режиме. Тут вам, и AI (artificial intelligence - искусственный интеллект) в помощь, и ML (machine learning - машинное обучение) :)
  2. Полуавтоматическое исправление. Принятие решения на различных этапах лежит на человеке, т.е. ошибки могут быть выявлены автоматически с помощью, например, контролей, а вот исправлять ли и как исправлять выявленные недочеты - решение принимает Владелец данных. При этом часть работ по исправлению может быть также возложена на автоматизированные сервисы, а часть мы можем вводить вручную.
  3. Исправление вручную. Полностью ручные процедуры по изменению и вводу новых, исправленных данных. Это наша с вами реальность :) - по причине отсутствия технических средств автоматизации, а также бизнес-правил и требований к данным, которые этой автоматизации подлежат!

Чтобы обеспечить наивысшее качество данных, все вышеперечисленные пункты-меры нужно превратить в набор мероприятий или шагов, каждый из которых приближает нас к лучшему качеству данных. Получившиеся шаги необходимо вписать в общий процесс управления качеством.

Кроме вышеобозначенных мер, необходимо также обеспечить мониторинг качества данных и разработать метрики (индикаторы), позволяющие измерять текущий уровень качества данных, чтобы сравнивать его с эталонным или наивысшим возможным уровнем качества. Также наличие метрик и индикаторов позволит вам отличить качественные данные от неликвида, т.е. вы увидите из какого источника брать данные имеет смысл, а куда за ними лучше не ходить. Это контролирующие процедуры, но об этом уже в другой статье.

Все новости канала можно читать в телеграм: https://t.me/datagovernance4all