Найти в Дзене

ТОП 10 терминов в BI | ключевые понятия, которые надо знать всем

Оглавление

BI (business ntelligence) - это необъятная философия владения данными и колдовства над ними, которая включает в себя очень много технологий и инструментов.

Терминология в BI очень обширная, и сначала может казаться довольно запутанной. Но все не так страшно!

Сегодня рассмотрим 10 базовых понятий, которые помогут вам сделать первые шаги в познании этой индустрии и быстрее разобраться с ключевыми концепциями!

1. BI (business intelligence)

Это, как говорится, база!

BI - это целая экосистема технологий, процессов и инструментов, направленных на превращение сырой информации (данных) в осмысленную аналитику. На основе ее можно принимать стратегические бизнес решения. (в основном для этого она и формируется)

BI создает основу для так называемого data driven подхода принятия решений, который помогает выстраивать стратегию компании, опираясь на реальные закономерности и статистику, построенную на исторических данных

2. Data Warehouse (DWH)

Это централизованное хранилище данных. Я называю это сердцем BI аналитики, потому что хранилище - ключевой элемент в инфраструктуре BI.

Здесь хранятся, агрегируются и объединяются все физические данные, собранные из различных источников. Основная цель - обеспечить однородное, консистентное хранение информации.

3. Реляционная БД.

Это вид базы данных, где информация представлена в виде таблиц со строками и столбцами, а отношения между ними устанавливаются ключами.

Реляционные базы данных (RDBMS) являются одним из основных типов БД. Подавляющее большинство моделей данных в BI строятся с учетом принципов ее архитектуры.

4. ETL процессы (Extract, Transform, Load)

Этот термин описывает ключевые шаги обработки информации из источников.

  • извлечение данных из источников (extract),
  • их трансформацию (transform)
  • загрузку в хранилище данных (load).

Именно ETL процессы обеспечивают интеграцию данных из разных источников, гарантирует их целостность и качество, а также выдают на выходе структурированные и аккуратные данные, пригодные для дальнейшего анализа.

5.OLAP (Online Analytical Processing)

OLAP - это технология многомерного анализ данных.

Центральный элемент концепции - многомерный OLAP куб. В этой методологии каждая описательная характеристика в данных представляет отдельное измерение, грань куба. А показатели - это факты. Факты содержат числовые данные, которые подлежат анализу.

Посмотрим на небольшой пример. Есть база данных товаров в магазине. В нашем кейсе данные имеют 3 описательные характеристики: Год, Категория товара, Цвет. Соответственно OLAP куб содержит 3 измерения. Фактом же является показатель "Количество, шт".

Количество измерений меняется при увеличении признаков - детализации (это понятие мы еще разберем). Поэтому куб - многомерный!

-2

6. Технология In-Memory

Это метод, при котором данные хранятся и обрабатываются непосредственно в оперативной памяти компьютера. Такой подход обеспечивает высокую скорость получения доступа к данным, в отличие от традиционных методов, где данные часто считываются с жесткого диска перед обработкой

  • Хранилище, стоящее на оперативке - горячее хранилище
  • Хранение на диске - холодное хранилище

Большинство современных хранилищ поддерживают In-Memory обработку. Однако есть и продукты, заточенные под холодное долгосрочное хранение (Hadoop).

7. Master Data (Мастер данные/ основные данные)

Представляют собой ключевую и постоянную, редко меняющуюся информацию в хранилище. Примером могут быть личные данные о сотрудниках компании, характеристики товаров.

Помимо мастер данных в хранилище имеют место транзакционные данные - это, наоборот, та информация, которая имеет свойства регулярно обновляться: продажи, выручка, платежи, отработанные часы и тд.

8. Metadata (Метаданные)

Буквально - это данные о данных!

Метаданные содержат информацию о самих данных. Например, об основных характеристиках или структуре.

На примере ниже представлены метаданные таблицы скважин. Здесь метаданные описывают каждое поле (столбцу) исходной таблицы с данными. Мы видим информацию о текстовом описании столбцов, типе данных, размере и единицах измерения.

-3

9. Детализация/Грануляция/Декомпозиция данных

Все эти термины связаны с изменением количества уровней, по которым можно посмотреть развертку данных. Соответственно,

Детализация (также известная как Drill-Down — раскрытие деталей) - это просмотр и анализ данных на более детальном уровне. Обычно используется, чтобы раскрыть агрегированные данные. Здесь также стоит упомянуть об обратном процессе Roll-Up — сжатие данных на более высоком уровне, когда необходим обзор общей картины

Грануляция - определяет сам уровень детализации или масштаба данных. Если данные имеют высокую грануляцию, это значит, что они представлены на очень подробном уровне.

Декомпозиция - это процесс разделения сложных данных на более простые составляющие или компоненты для более глубокого понимания.

Пример агрегированных данных о продажах

Агрегированные данные о продажах
Агрегированные данные о продажах

При увеличении уровня детализации на 2 признака таблица будет выглядеть следующим образом:

Детализированные данные
Детализированные данные

Третий вариант таблицы демонстрирует декомпозицию показателя "Количество проданных товаров" на 2 составных - Проданные в категории А и В. Это дает возможность более глубокого анализа

Декомпозиция количества продаж
Декомпозиция количества продаж

10. Дэшборд (Dashboard)

Это панель, которая объединяет связанные визуальные элементы с данными. Один из вариантов BI отчетности. На мой вкус, самый вкусный! Дэшборды нужны для наглядной визуализации и мониторинга ключевых показателей.

пример дэшборда
пример дэшборда

Дэшборды бывают разные. Их построение - это, пожалуй, один из самых творческих элементов во всем BI!

Основные элементы каждого дэшборда:

  • Графики и диаграммы
  • Метрики и показатели - представлены в карточках с числом.
  • Таблицы
  • Фильтры и селекторы - элементы управления для выбора и фильтрации данных. Благодаря ним дэшборд становится интерактивным.

Надеюсь, эта статья помогла Вам расширить свой словарный запас BI терминов и вы готовы к более глубокому взгляду на мир аналитики данных!

Ведь "BI - это не просто набор технических понятий, это целостная система, с помощью которой можно управлять потоками данных и делать магию. А становиться волшебником или нет - решать Вам!