Найти тему
Data Governance для чайников

Что такое Data Mesh

Оглавление
Data Mesh
Data Mesh

Консультант компании ThoughtWorks и автор подхода Data Mesh Zhamak Dehghani даёт следующее определение:

  • Децентрализованный социально-технический подход к обмену аналитическими данными, доступу к ним и управлению ими в сложных и крупномасштабных средах - внутри организаций или между ними

Этот архитектурный подход в организации данных продолжает вызывать интерес у корпораций, поэтому специалистам в области данных будет полезно ознакомиться с основными принципами data mesh.

Уже сейчас около 41,5% компаний планируют инвестировать в data mesh в течение 2023 года, и этот процент, вероятно, будет расти в ближайшие несколько лет. Data mesh обещает преимущества компаниям, ориентированным на данные, за счет, с одной стороны, расширения более тесного взаимодействия между разрозненными командами, с другой стороны, за счет заложенной гибкости решения, необходимой для параллельного масштабирования продуктов и услуг.

Если вы, как специалист по данным, еще не сталкивались с подходом data mesh, то вам будет полезна эта публикация.

До появления Data Mesh

Автор объяснила, что традиционная архитектура данных фокусируется на перемещении данных в хранилища или из них в бизнес-операции, опираясь на соответствующие для этого технологии. Эти технологии по сути являются конвейером передачи данных (data pipelines), включающим набор взаимосвязанных процессов, которые обеспечивают передачу данных из одной системы в другую.

Чтобы управлять этой централизованной архитектурой, организации требуется множество инженеров, работающих в тандеме для управления сложной сетью конвейеров передачи данных. Кроме того, инженерам необходимо извлекать, преобразовывать и загружать (ETL) данные в местах стыка систем, чтобы сделать их пригодными для бизнес-операций. Смотрите рисунок ниже:

Centralized architecture
Centralized architecture

Следовательно, потребители данных вынуждены ждать достаточно долго, пока пройдет время с момента создания данных до получения ценности в виде актива. Кроме того, потребители данных не дополучают часть контекста этих данных и, как следствие, теряют доверие к их полезности.

После Data Mesh

По словам Дехгани, архитектура data mesh основана на data-driven стратегии, при которой в компании работают смешанные команды из технических специалистов, бизнес-экспертов и разработчиков. Эти кросс-функциональные группы организуются в отдельные подразделения, предоставляющие бизнес-результаты - Домены, которые взаимодействуют друг с другом.

Смотрите приведенную ниже диаграмму, как пример подобной организации, Daff Inc. объединяет исполнителей и аудиторию:

Sample company Daff Inc.
Sample company Daff Inc.

Каждый домен фокусируется на нескольких решениях основанных на данных, доступных другим пользователям через инфраструктуру самообслуживания. Команда DataDevOps поддерживает обмен данными между доменами с помощью автоматизации, все подразделения организации и пользователи внутри доменов могут использовать любые данные.

Автор говорит:

“Мы видим распределенную архитектуру, используемую для продвинутой аналитики и обмену, которая раздает и получает данные по мере необходимости. Каждый сотрудник организации несет ответственность за свои данные. По мере роста организации, с появлением новых вариантов использования данных или интеграции между новыми точками обмена, добавляется новый домен с новой командой, ответственной за эти данные.”

Архитектура и принципы Data Mesh

Когда организация использует архитектуру data mesh, она переходит к качественно новому уровню использования данных и их монетизации, так как она уходит из плоскости бюрократии в плоскость бизнес-активностей. По словам Дехгани, эту эволюцию объясняют четыре принципа data mesh: доменное владение данными, данные как продукт, инфраструктура самообслуживания и федеративное управление процессами обработки данных.

Каждый из них зависит от другого, как показано на рисунке ниже:

Data Mesh principles
Data Mesh principles

Дехгани подробно остановилась на каждой концепции и показала их взаимозависимость.

Владение данными устанавливается внутри домена

Доменно-ориентированное владение данными (Domain-driven ownership), появляется как результат исследования существующих бизнес-областей и бизнес-команд. Нужно выяснить как структурирована ваша организация, и как существующие бизнес-домены можно соотнести с владением данными, и как определить Владельцев данных.

Доменная схема владения предоставляет бизнесу дополнительные рычаги контроля над своими данными. Домен должен передавать свои данные другим доменам через единый интерфейс доступа к данным организации. Каждый домен становится владельцем своих дата-продуктов, самостоятельно разрабатывает метрики продукта и измеряет свои ключевые показатели эффективности, получает обратную связь и корректирует цели на протяжении всего цикла разработки.

Домены получают обратную связь от других команд, использующих их продукты, повышая вовлеченность, подстегивая обмен данными и предотвращая их разрозненность. Кроме того, организации вознаграждают домены в зависимости от успеха их продукта, создавая цикл положительной обратной связи, поощряя самообслуживание и помощь другим доменам в повышении качества их данных и услуг.

Данные как продукт

Данные - это продукт, автономный сервис для различных пользователей, доступ к которому осуществляется с помощью удобных инструментов. Таким образом, данные как продукт фокусируются на семантике данных, а не на синтаксисе.

Как интероперабельный объект, дата-продукт создается доменом и содержит метаданные, предоставляемые вместе с данными, которые заслуживают доверия.

Принцип “данные как продукт” воплощает в себе подход, когда наименьшая архитектурная единица инкапсулирует все структурные элементы, необходимые для совместного использования этих данных. Код поставляется вместе с данными в виде логической единицы, микросервиса и кванта архитектуры. Такая гибкость снижает стоимость владения.

Федеративное управление процессами обработки данных

Доменно-ориентированное владение и данные как продукт требуют федеративного управления вычислениями над данными, которые регулируются формализованными практиками и стандартами взаимодействия доменов. Каждый домен несет ответственность за свои данные, но при этом использует общеустановленные архитектурные паттерны. После согласования политик, определяющих как будет соблюдаться качество данных при кросс-функциональном их распределении, каждый домен сохраняет за собой полномочия по управлению данными. Такой подход повышает ценность данных.

Ответственность каждой команды за свои продукты перед другими доменами, мотивирует применять политику управления данными (
Data Governance), которая базируется на выполнении соглашений об уровнях обслуживания (SLA). Благодаря такой стандартизации, процессы Data Governance внедряются в виде политик обработки данных и автоматизируются с помощью инфраструктуры самообслуживания.

Инфраструктура самообслуживания как платформа

Инфраструктура самообслуживания как платформа поддерживает три вышеприведенных принципа data mesh: доменное владение данными, данные как продукт и федеративное управление процессами обработки данных. Рассматривайте этот интерфейс как операционную систему, в которой пользователи могут получить доступ к API каждого домена. Его инфраструктура “кодифицирует и автоматизирует проблемы управления” во всех областях.

По словам Дехгани, такая система формирует многоплановую платформу данных, совокупность взаимосвязанных кросс-функциональных возможностей, включая механизмы управления данными, хранилище и вычисления над данными. Дехгани рассматривает инфраструктуру самообслуживания как платформу, которая обеспечивает автономность для нескольких доменов и поддерживается DataDevOps.

При такой архитектуре данных затраты каждого домена на обслуживание данных и владение ими снижаются из-за совместимости общих данных. В то же время команда платформы обеспечивает поддержку платформы polyglot, так что каждый домен имеет возможность применять свой уникальный подход к экспериментам и созданию сервисов передачи данных.

Заключение: Расширение культуры сотрудничества


Data mesh может успешно использоваться в организации, развивая культуру сотрудничества, основанную на data-driven и зрелом цифровом бизнесе.

Архитектура данных должна эволюционировать в Data mesh, как только организация достигнет четвертого
уровня зрелости в управлении данными. Четыре основных принципа data mesh, описанные выше, объединяют службы передачи данных из разных доменов, сохраняя автономию и уникальные возможности каждого из них.

*Адаптация статьи: "Understanding Data Mesh Principles", By Michelle Knight on June 8, 2023

Перейти в канал в Telegram: https://t.me/datagovernance4all