Найти тему
Data Governance для чайников

Data Lineage - примеры использования. Часть 2

Data Lineage Part 2
Data Lineage Part 2

Обновленную и скорректированную версию статьи читайте на boosty

В первой части мы рассмотрели основные функции инструмента Data Lineage, в этой рассмотрим как и для чего их можно применять в организации.

Для чего Data Lineage

Нет сомнений, что понимание происхождения данных является залогом получения высококачественных данных, давайте рассмотрим несколько задач, которые решает инструмент data lineage. Каждый вариант использования data lineage приближает нас к заветной цели - улучшение качества данных в организации.

  • Анализ проблем с данными: Источник проблем с данными можно быстро и эффективно отследить, используя карты происхождения данных. Data lineage помогает выявлять проблемы с данными, предоставляя информацию об их перемещении по ИТ-ландшафту организации. Этот процесс может быть особенно полезен в сложных информационных средах, использующих данные, собранные из различных ИТ-систем. Data lineage также может хранить историю изменения данных с течением времени, обнаруживая аномалии или закономерности, которые могут указывать на проблему.)
  • Удаление данных: Data lineage также можно использовать для избавления от устаревших или неактуальных данных, хранящихся в информационных системах, используя функции архивирования или удаления. Это может повысить общую производительность информационной системы за счет уменьшения объема хранимых данных.
  • Соответствие требованиям: Data lineage может использоваться для обеспечения соответствия требованиям к данным, улучшения управления рисками и обеспечения того, чтобы данные обрабатывались и хранились с использованием основных принципов Data Governance.
  • Моделирование данных: Организации могут использовать data lineage для целей моделирования данных. Он может предоставить информацию о различных компонентах данных и их связях, необходимых для визуального представления и проектирования. Взаимосвязи между данными могут быть перенесены в модель, чтобы показать зависимости, присутствующие во всей экосистеме данных.
  • Качество данных: Данные постоянно меняются. Data lineage предоставляет подробную информацию о жизненном цикле и местоположении источников данных. Он отслеживает данные от самого источника и позволяет бизнесу контролировать процесс преобразования своих данных и их достоверность.
  • Обнаружение ошибок: Data lineage может быть использован для выявления неверных предположений о данных, определения мест возникновения ошибок и предоставления возможности их исправить.
  • Impact анализ: Data lineage можно использовать с целью обнаружения бизнес-критичных данных, например, узких или высоконагруженных мест обработки данных. Также можно увидеть как те или иные изменения в данных повлияют на их жизненный цикл.
  • Миграция данных: Когда данные перемещаются в новую систему хранения, организации используют процесс миграции данных, чтобы выяснить источники данных и их жизненные циклы. Поскольку data lineage предоставляет информацию о всех перемещениях данных, его можно использовать как вспомогательный инструмент на этапе планирования миграции и проектирования нового хранилища.
  • Эффективный DataOps: Лучшее понимание происхождения данных помогает оптимизировать операции с данными и избегать ошибок.

Примеры использования Data Lineage в реальном мире

Некоторые крупные компании, такие как Airbnb, Netflix, UBS, Slack и Postman, в настоящее время используют data lineage – и повышают эффективность своих процессов и увеличивают прибыль. Эти компании провели исследования и решили, что стоит установить программное обеспечение data lineage. Им требовались достоверные и надежные данные для принятия лучших решений. Data lineage обеспечивает прозрачность, необходимую для эффективной работы с данными в процессах миграции, обновления информационных систем и исправления ошибок, обеспечивая целостность данных на протяжении всего жизненного цикла.

Направление Data lineage является довольно новым и, как следствие, все еще немного дорогостоящим. Ряд крупных предприятий приняли решение разрабатывать собственные программные продукты Data lineage.

Одним из реальных примеров использования data lineage является British Airways и ее реакция на утечку данных. В сентябре 2018 года British Airways столкнулась с утечкой данных, затронувшей 380 000 клиентов, касающихся их кредитных карт и личной информации. Используя data lineage, они смогли отследить проблему вплоть до вредоносного скрипта на своем веб-сайте. Проследив цепочку данных до ошибочного сценария, они смогли быстро выявить и устранить проблему.

Другим примером использования Data lineage в реальном мире является Air France, которая столкнулась с проблемами обработки данных. Их бизнес вырос до такой степени, что они обрабатывали более 2,5 миллионов новых посетителей на своем веб-сайте, и отслеживать такие массивы данных, поступающие из различных баз данных, стало очень сложно. Air France в партнерстве с Talend разработала новую систему data lineage, которая позволила компании и ее специалистам по управлению данными предоставлять персонализированную рекламу и обновления в режиме реального времени. Они сделали это, не нарушая правил GDPR.

Перевод оригинальной статьи: Data Lineage Use Cases by Keith D. Foote on June 13, 2023

There are also some consistent transformation tools. Подробности использования в первой части.

Автоматизация Data Governance процессов.

Поддержать канал | Подписаться на скачивание файлов | Читать в телеграм