Найти в Дзене
Data Governance для чайников

Data Lineage - примеры использования: Часть 1

Data lineage Part 1
Data lineage Part 1

Обновленную и скорректированную версию статьи читайте на boosty

Происхождение данных можно по-другому назвать Data Journey Map - путь данных или карта путешествия данных внутри организации. Инструменты, позволяющие строить Data lineage для отслеживания происхождения данных, значительно упрощают процесс управления данными. Попытки сформировать карты происхождения данных вручную являются утомительными и отнимают много времени.

Карта происхождения данных должна содержать информацию о том, как данные были созданы, обработаны, преобразованы и переданы, и обычно используется для поддержки принятия решений, которые должны основываться на точных и достоверных данных. Для современных компаний Data lineage является важной составляющей в цепочке принятия решений. Однако отслеживание потока данных от источника к потребителю может быть очень сложным процессом.

Доверие к данным должно быть основано на понимании того, откуда они получены и как они были преобразованы и обработаны. Data lineage позволяет организациям видеть, как использовались наборы данных и как они изменялись. Такое знание позволяет организациям лучше управлять данными и исправлять любые ошибки в их первоисточнике. Наличие практик управления данными через карты происхождения данных, позволяет компаниям поддерживать качество своих данных на улучшенном уровне.

Принятие правильных решений, основанных на данных (Data-driven подход), требует доверия к этим данным.

Понимание различных вариантов использования карт происхождения данных, функциональных требований к работе инструментов data lineage может быть весьма полезным перед наймом подрядчика для разработки инструмента data lineage или приобретением программного обеспечения. Выбор неправильного программного обеспечения для data lineage может привести к потере времени и денег, а в конечном итоге и к повторной покупке программного обеспечения, более подходящего под нужды организации. (В конце этой статьи есть ссылка на open source data lineage tools)

Data Lineage процесс и его функции

Data lineage процесс включает в себя множество функций. Современные компании все больше полагаются на информацию в режиме реального времени для улучшения своих процессов, операций и взаимоотношений с клиентами, но эта информация зависит от правильности трактования данных. Существует множество способов улучшения рабочих процессов, которые менеджеры и технические специалисты могут обнаружить и применить благодаря инструменту Data lineage.

  • Автоматизация: Составление карты происхождения данных - это автоматизированный процесс. Отслеживать и визуализировать data lineage вручную просто нереально по сегодняшним стандартам эффективности. Автоматизация также значительно упрощает соблюдение нормативных требований (GDPR, BCBS, IRB и т.д.), отслеживая распространение таких данных как личная информация (ПДН) или коммерческая тайна, что позволяет присвоить им соответствующий уровень безопасности - статус конфиденциальных или персональных данных - вне зависимости от места использования (ИТ-ландшафта).
  • Разметка данных или тегирование: Любые данные, вне зависимости были они преобразованы или перемещены, помечаются тегами. Затем теги отслеживаются от начала до конца маршрута, обеспечивая прозрачность происхождения данных. Однако для этого процесса требуется “consistent transformation tool” - инструмент, который контролирует все перемещения и изменения данных на пути их жизненного цикла. (Важна согласованность этого инструмента с вашей эко-системой данных – выберите лучший инструмент, подходящий для вашей системы, ссылка на примеры инструментов дана во второй части статьи)
  • Синтаксический разбор или парсинг: Эта функция отслеживает жизненный цикл данных, фиксируя точки, в которых они изменяются - обогащаются, форматируются или перемещаются. Этот способ позволяет фиксировать изменения данных в различных ИТ- системах. Однако подобный анализ требует хорошего понимания инструментов и языков программирования, используемых на протяжении всего жизненного цикла данных. Эта функция data lineage в значительной степени полагается на распознавание логики, используемой при обработке данных (процесс анализа символов и строк кода).
  • Описание источников метаданных: Инструменты data lineage используют метаданные для визуализации потока данных, что позволяет пользователям видеть, как данные перемещаются, преобразуются и используются во всей организации. За автоматизированный сбор метаданных с источников отвечает эта функция, которая позволяет подключаться к базам данных ИТ-систем, считывать их структуры и метаданные, а также может использоваться для выявления причин ошибок и расхождений в наборах данных.
  • Происхождение на основе шаблонов: Вместо того, чтобы анализировать программный код, эта функция data lineage хранит и анализирует шаблоны данных. Этот метод опирается на знание метаданных при разработке шаблонов. Основным преимуществом этого метода является отсутствие необходимости понимать различные языки программирования, используемые для обработки данных в ИТ-системах. Отслеживаются данные, а не языковые алгоритмы.

Во второй части статьи рассмотрим варианты использования различных функций data lineage, которые применяются при обработке данных и помогают организациям улучшать их качество.

There are also some open-source data lineage programs.

Автоматизация Data Governance процессов.

Поддержать канал | Подписаться на скачивание файлов | Читать в телеграм

Если статья была полезна или просто понравилась, помогите другим быстрее найти её - поставьте лайк.