Найти в Дзене

Толковый словарь Data Governance

Толковый словарь Data Governance
Толковый словарь Data Governance

Собираем в одном месте термины и определения, которые используются в мире Data Management, описания даны простым языком, есть примеры, ссылки на статьи с подробными описаниями. Раздел постоянно пополняется - теперь на Boosty.

Data-driven - подход в управлении данными, который декларирует использование данных и бизнес-аналитики для принятия всех корпоративных решений.

Data intelligence - это ответственное управление данными, создание внутри организации возможностей для правильной интерпретации данных и правильного их использования (understand and use your data in the right way).

Data lineage - происхождение данных, по-другому можно назвать Data Journey Map: путь данных или карта путешествия данных внутри организации. Data lineage - это процесс или функциональность для отслеживания данных от систем-источников до конечных потребителей, обычно используется для поддержки принятия решений, которые должны основываться на точных и достоверных данных.

Data Management - область знаний, отвечающая за проектирование, сбор, хранение данных и обеспечения к ним доступа с целью анализа и поддержки производительности, эффективности бизнес-процессов организации и процессов принятия решений.

Data Transformation layer (DTL) - это слой преобразования в хранилище данных, который служит для преобразования и очистки данных перед их загрузкой в основное хранилище. Transformation layer обычно включает в себя различные инструменты и технологии, такие как ETL (извлечение, преобразование и загрузка), которые позволяют извлекать данные из различных источников, преобразовывать их в нужный формат и загружать в основное хранилище. Кроме того, этот слой может включать в себя процессы очистки и нормализации данных, чтобы обеспечить их качество и точность.

Detail Data Storage (DDS) - это метод хранения данных, который используется в системах управления базами данных для оптимизации производительности и эффективности использования ресурсов. DDS позволяет хранить детализированные данные, то есть данные с высокой степенью детализации, что позволяет получать более точные и полезные результаты при выполнении запросов и анализе данных. Этот метод хранения данных отличается от других методов, таких как обобщенное хранение данных (OLAP), где данные хранятся в агрегированном виде для быстрого доступа и анализа. В DDS каждый факт хранится отдельно, что обеспечивает большую гибкость и точность при работе с данными. Кроме того, DDS может использоваться для хранения данных временных рядов, таких как данные о продажах, трафике или погоде, что позволяет анализировать эти данные в динамике и выявлять тенденции и закономерности.

Raw data storage (RDS) - это способ хранения данных, которые еще не были обработаны или проанализированы. Этот метод используется для сохранения исходных данных в их первоначальном виде, без какой-либо обработки или изменения. RDS обычно используется для хранения больших объемов данных, которые могут быть использованы для различных целей, таких как анализ данных, машинное обучение, прогнозирование и т.д. Он также может использоваться для хранения конфиденциальной информации, такой как персональные данные, которые должны быть защищены от несанкционированного доступа. Одним из преимуществ RDS является то, что он обеспечивает высокую степень безопасности и надежности хранения данных.

Альтернативный ключ (alternate key) - это потенциальный ключ, который не является первичным ключом отношения. Иногда ещё называют Уникальный ключ, Возможный ключ.

Архитектура данных - набор моделей (артефактов), используемых для описания существующего состояния организации с ракурса данных, определения требований к данным, к их интеграции и проектированию приложений, витрин и хранилищ данных в соответствии со стратегией управления данными (DAMA-DMBoK).

Атрибут или свойство - элемент модели данных, с помощью которого мы описываем бизнес-сущность (или просто сущность) и уточняем бизнес-контекст сущности, в котором она работает. Говоря иначе, атрибуты - это свойства или признаки сущностей, с помощью которых мы отличаем их друг от друга. Пример: красный, Иванов, 150 и т.п. Атрибуты помогают нам сделать выбор между, на первый взгляд, одинаковыми сущностями, например, в магазине вы выбираете яблоки по цвету - зеленые или красные, а также сверяетесь с атрибутом Сорт, если хотите, чтобы ваш вкус тоже был удовлетворен на 100%.

Бизнес-ключ (business key) - ключ, созданный на основе данных, которые существуют за пределами вашего процесса, сервиса или базы данных. Другими словами, данные генерируются во внешних системах. Бизнес-ключ известен также как Натуральный ключ (natural key) или Доменный ключ (domain key). Бизнес-ключи важны при информационном обмене между системами как внутренними (внутри организации), так и внешними. Выделение, использование и контроль бизнес-ключей позволяет нам соблюдать такие критерии качества как согласованность, достоверность и непротиворечивость данных. Пример: Номер социального страхования СНИЛС, идентификационный номер налогоплательщика ИНН, Номер и Серия паспорта и т.п.

Бизнес-сущность – это сущность или объект, принадлежащий конкретному бизнес-сервису или процессу, который не может существовать вне этого процесса. Пример: Договор купли-продажи, Рекрутер, Налог с доходов ФЛ и т.п. Если мы ничего не покупаем и не продаем, нам не нужен "Договор купли-продажи", если мы не нанимаем сотрудников - у нас нет "Рекрутера", нет доходов - нет налога :) и т.д.

Владелец данных - роль в организации, которая отвечает за правильность создания данных, за их распространение и качество во вверенной ему области данных.

Внешний ключ (foreign key) — идентификатор другой сущности ID, на которую мы ссылаемся при описании/моделировании данных, проектировании баз данных. Обеспечивает ссылочную целостность - корректную связь между данными, позволяя таким образом поддерживать актуальность информации о сторонних сущностях в любой момент времени. Обязательный элемент физической модели данных, в то время как в концептуальных их не используют, а в логических применяют по необходимости. Пример: для сущности "Продукт" в физической модели может потребоваться создание внешнего ключа ID_ProductGroup - ссылки на сущность "Группы продуктов", если она будет описана отдельным объектом данных ProductGroup, а не простым атрибутом Group_product. Пример модели

Данные – это информация, поступающая к нам через информационные системы и приложения, которую оцифровали и используют в рабочих целях или для повседневных нужд. Пример: представьте, что вы собираетесь оформить заказ в интернет-магазине, и приложение просит вас ввести информацию о товарах и адресе доставки, как только информация о ваших намерениях попадет в приложение, через которое вы оформляете заказ, это всё станет данными, и ваш заказ - это тоже данные.

Домен - множество объектов в пределах одного контекста, т.е. некая область с довольно четкими границами или рамками, включает в себя объекты, а также свойства, отношения и функции. Часто говоря Домен, подразумевают Предметную область. Во многих областях знаний Домен является самым верхним рангом или уровнем в группировке или классификации, иначе говоря, верхним уровнем в иерархии. Домен играет большую роль в проектировании и анализе данных. Примеры доменов данных: Человек, Имущество, Календарь. Наборы и состав доменов данных зависит от принятых в организации архитектурных политик и стандартов.

Концепт (сущности) - это объект концептуальной модели данных, является проекцией объекта реального мира и существует не зависимо от деятельности организации. Концепт - это домен данных, который является родительской сущностью для прочих объектов, наследующих от него поведение и основные свойства (характеристики). Базовые концепты типизируют и организуют бизнес-сущности. Базовые Концепты выделяются внутри супер-доменов данных. Пример: Базовый концепт - Заказ, подтипы (бизнес-сущности) - Заказ на продажу, Заказ на покупку.

Концептуальная модель данных (CDM - Conceptual Data Model) - высокоуровневое представление предметной области, содержит обычно только бизнес-критичные бизнес-сущности, связи и зависимости между ними. Описание бизнес-сущностей может быть представлено текстом или набором бизнес-значимых атрибутов. Визуализация концептуальной модели данных обычно производится в виде ER-диаграммы (Entity-Relationship). Нотация и уровень абстракции/детализации концептуальной модели зависит от принятых в организации норм и стандартов моделирования данных. Пример модели.

Корпоративная модель данных (EDM - Enterprise Data Model) - набор артефактов (диаграммы, схемы, таблицы, каталоги), дающий представление о структуре и доменах данных, которыми оперирует организация, их связях и отношениях между различными бизнес-сущностями, а также жизненном цикле данных. Для поддержания корпоративной модели данных в актуальном состоянии обычно требуется наличие инструмента Архитектурный репозиторий данных. Корпоративная модель данных может содержать концептуальные, логические и физические модели данных, диаграммы потоков данных и т.п. Состав и набор артефактов зависит от принятой в компании политики управления данными.

Логическая модель данных (LDM - Logical Data Model) - это модель данных определенной предметной области, описанная в терминах бизнеса и не зависящая от конкретной системы управления базами данных или технологии хранения. Обычно содержит визуальное представление в виде схем или таблиц бизнес-сущностей, их атрибутов и связей между ними. Пример модели.

Метрика (Индикатор, Показатель) качества данных - критерий оценки достижения требуемого уровня качества данных, помогает определить можно ли доверять данным. Метрика качества показывает насколько данные соответствуют заявленным требованиям к качеству и обладают ли они нужными характеристиками качества для выполнения операций, анализа и принятия решений.

Модель данных – это обобщенное представление об области знаний с ракурса данных, которыми она оперирует. Основным элементом модели данных является сущность. Модель данных может быть представлена в виде схемы или таблицы, а также связями между ними. Пример: модель данных сущности Человек может быть выражена через следующий набор атрибутов - Фамилия, Имя, Отчество, Дата рождения.

Основные данные (master data) - экземпляры ключевых бизнес-сущностей, участвующие в основных бизнес-процессах или сервисах компании; основные данные являются ключевым элементом бизнес-транзакций и определяют бизнес-контекст, также являются предметом бизнес-анализа в организации. Важным аспектом в управлении основными данными является организация процесса их идентификации на всём ИТ-ландшафте с целью обеспечения качества данных, а именно достоверности и согласованности. Пример: основными данными для компании, занимающейся продажей обуви в розницу, будут экземпляры таких бизнес-сущностей как Поставщик, Товар, Чек, Заказ и т.п.

Первичный ключ (primary key) — идентификатор сущности ID, выбранный в качестве основного ключа (или ключа по умолчанию) в процессе моделирования сущности или при проектировании базы данных. Обеспечивает уникальность экземпляров сущности, отсутствие дублей. Обязательный элемент физической модели данных, в то время как в концептуальных их не используют, а в логических применяют по необходимости. Пример: сущность "Продукт" в концептуальной модели будет выражена объектом Product; в логической модели объектом Product с набором атрибутов: Name_product, Group_product, FullName_product, Cost_product, Price_product; в физической модели будет добавлен атрибут ID_product - первичный ключ для продукта. Пример модели

Потенциальный ключ (candidate key) - в реляционной модели данных подмножество атрибутов отношения, удовлетворяющее требованиям уникальности и несократимости* (минимальности). Пример: экземпляры бизнес-сущности "Физическое лицо" мы можем идентифицировать при помощи нескольких разных атрибутов: номер СНИЛС, номер паспорта, номер телефона. Все эти атрибуты - потенциальные ключи.

Семантический слой (semantic layer) - это понятие, которое относится к области компьютерных наук и искусственного интеллекта. Это уровень или компонент в программном обеспечении, который содержит информацию о значении и взаимосвязи между различными элементами в компьютерной системе. Пример реализации в хранилище

Слой сырых данных (row data) - data storage, хранилище необработанных данных, загруженных из источников в том виде, в котором они там находятся или с минимальной предобработкой.

Справочные данные (reference data) - экземпляры бизнес-сущностей, позволяющие описывать, дополнять и структурировать основные данные, являясь их атрибутами. Наборы значений таких справочников достаточно редко или совсем не изменяются на длительных промежутках времени. Глобально делятся на: 1 - нормативно-справочную информацию, которая является отраслевыми, региональными и любыми другими стандартами, которые мы получаем из внешних источников в виде наборов значений и кодов; 2 - общие справочники организации, регулируемые внутренними положениями и регламентами; 3 - пользовательские наборы данных, облегчающие бизнес-анализ и помогающие выполнять операционные задачи в рамках отдельных подразделений и функций. Пример: 1. ОКВЭД - Общероссийский классификатор видов экономической деятельности; ФИАС - Федеральная информационная адресная система; Спецификация кодов валют по ISO; 2. Справочник категорий товаров; Организационная структура; ЦФО - центры финансовой ответственности; 3. Типы проектов; Статусы задач; Направления обучения.

Сущность (entity)– это некоторый объект реального мира, который остается неизменным и постоянным под влиянием различных обстоятельств и воздействий на него. С ракурса данных, сущность - это оцифрованный объект реального мира, описание смысла сущности может передаваться простым текстом или через перечисление её признаков - атрибутов. Пример: Сущности - Договор, Человек, Автомобиль; Описание - Человек имеет Фамилию, Имя, Дату рождения.

Физическая модель данных (PDM - Physical Data Model) - это представление структуры данных, реализованной или предназначенной для реализации в системе управления базами данных. PDM помогает инженерам разрабатывать и поддерживать архитектуру данных. Один и тот же сервис/процесс может быть реализован по-разному в различных приложениях, т.е. у него может быть несколько отличающихся друг от друга физических моделей данных, опирающихся на одну логическую модель. Пример модели.

Характеристика качества данных - свойство данных отвечать требованиям достоверности и пригодности для использования в конкретной цели или задаче. Наиболее часто используют такие характеристики как полнота, точность, актуальность, разумность, согласованность, уникальность и доступность данных. Данные, соответствующие перечисленным выше характеристикам, считаются качественными. На основании заявленных характеристик качества разрабатывают требования к качеству данных.

Экземпляр сущности (entity instances) - реальные значения и данные, которые появляются при выполнении бизнес-процессов, обычно регистрируются посредством проведения бизнес-транзакций. Пример: для бизнес-сущности Товар экземплярами будут: молоко, яйца, сахар и т.п.

Не нашли то, что вам нужно - задайте вопрос в комментариях, в телеграм или пришлите на почту.

Поддержать канал | Подписаться на скачивание файлов | Читать в телеграм