BI (business ntelligence) - это необъятная философия владения данными и колдовства над ними, которая включает в себя очень много технологий и инструментов.
Терминология в BI очень обширная, и сначала может казаться довольно запутанной. Но все не так страшно!
Сегодня рассмотрим 10 базовых понятий, которые помогут вам сделать первые шаги в познании этой индустрии и быстрее разобраться с ключевыми концепциями!
1. BI (business intelligence)
Это, как говорится, база!
BI - это целая экосистема технологий, процессов и инструментов, направленных на превращение сырой информации (данных) в осмысленную аналитику. На основе ее можно принимать стратегические бизнес решения. (в основном для этого она и формируется)
BI создает основу для так называемого data driven подхода принятия решений, который помогает выстраивать стратегию компании, опираясь на реальные закономерности и статистику, построенную на исторических данных
2. Data Warehouse (DWH)
Это централизованное хранилище данных. Я называю это сердцем BI аналитики, потому что хранилище - ключевой элемент в инфраструктуре BI.
Здесь хранятся, агрегируются и объединяются все физические данные, собранные из различных источников. Основная цель - обеспечить однородное, консистентное хранение информации.
3. Реляционная БД.
Это вид базы данных, где информация представлена в виде таблиц со строками и столбцами, а отношения между ними устанавливаются ключами.
Реляционные базы данных (RDBMS) являются одним из основных типов БД. Подавляющее большинство моделей данных в BI строятся с учетом принципов ее архитектуры.
4. ETL процессы (Extract, Transform, Load)
Этот термин описывает ключевые шаги обработки информации из источников.
- извлечение данных из источников (extract),
- их трансформацию (transform)
- загрузку в хранилище данных (load).
Именно ETL процессы обеспечивают интеграцию данных из разных источников, гарантирует их целостность и качество, а также выдают на выходе структурированные и аккуратные данные, пригодные для дальнейшего анализа.
5.OLAP (Online Analytical Processing)
OLAP - это технология многомерного анализ данных.
Центральный элемент концепции - многомерный OLAP куб. В этой методологии каждая описательная характеристика в данных представляет отдельное измерение, грань куба. А показатели - это факты. Факты содержат числовые данные, которые подлежат анализу.
Посмотрим на небольшой пример. Есть база данных товаров в магазине. В нашем кейсе данные имеют 3 описательные характеристики: Год, Категория товара, Цвет. Соответственно OLAP куб содержит 3 измерения. Фактом же является показатель "Количество, шт".
Количество измерений меняется при увеличении признаков - детализации (это понятие мы еще разберем). Поэтому куб - многомерный!
6. Технология In-Memory
Это метод, при котором данные хранятся и обрабатываются непосредственно в оперативной памяти компьютера. Такой подход обеспечивает высокую скорость получения доступа к данным, в отличие от традиционных методов, где данные часто считываются с жесткого диска перед обработкой
- Хранилище, стоящее на оперативке - горячее хранилище
- Хранение на диске - холодное хранилище
Большинство современных хранилищ поддерживают In-Memory обработку. Однако есть и продукты, заточенные под холодное долгосрочное хранение (Hadoop).
7. Master Data (Мастер данные/ основные данные)
Представляют собой ключевую и постоянную, редко меняющуюся информацию в хранилище. Примером могут быть личные данные о сотрудниках компании, характеристики товаров.
Помимо мастер данных в хранилище имеют место транзакционные данные - это, наоборот, та информация, которая имеет свойства регулярно обновляться: продажи, выручка, платежи, отработанные часы и тд.
8. Metadata (Метаданные)
Буквально - это данные о данных!
Метаданные содержат информацию о самих данных. Например, об основных характеристиках или структуре.
На примере ниже представлены метаданные таблицы скважин. Здесь метаданные описывают каждое поле (столбцу) исходной таблицы с данными. Мы видим информацию о текстовом описании столбцов, типе данных, размере и единицах измерения.
9. Детализация/Грануляция/Декомпозиция данных
Все эти термины связаны с изменением количества уровней, по которым можно посмотреть развертку данных. Соответственно,
Детализация (также известная как Drill-Down — раскрытие деталей) - это просмотр и анализ данных на более детальном уровне. Обычно используется, чтобы раскрыть агрегированные данные. Здесь также стоит упомянуть об обратном процессе Roll-Up — сжатие данных на более высоком уровне, когда необходим обзор общей картины
Грануляция - определяет сам уровень детализации или масштаба данных. Если данные имеют высокую грануляцию, это значит, что они представлены на очень подробном уровне.
Декомпозиция - это процесс разделения сложных данных на более простые составляющие или компоненты для более глубокого понимания.
Пример агрегированных данных о продажах
При увеличении уровня детализации на 2 признака таблица будет выглядеть следующим образом:
Третий вариант таблицы демонстрирует декомпозицию показателя "Количество проданных товаров" на 2 составных - Проданные в категории А и В. Это дает возможность более глубокого анализа
10. Дэшборд (Dashboard)
Это панель, которая объединяет связанные визуальные элементы с данными. Один из вариантов BI отчетности. На мой вкус, самый вкусный! Дэшборды нужны для наглядной визуализации и мониторинга ключевых показателей.
Дэшборды бывают разные. Их построение - это, пожалуй, один из самых творческих элементов во всем BI!
Основные элементы каждого дэшборда:
- Графики и диаграммы
- Метрики и показатели - представлены в карточках с числом.
- Таблицы
- Фильтры и селекторы - элементы управления для выбора и фильтрации данных. Благодаря ним дэшборд становится интерактивным.
Надеюсь, эта статья помогла Вам расширить свой словарный запас BI терминов и вы готовы к более глубокому взгляду на мир аналитики данных!
Ведь "BI - это не просто набор технических понятий, это целостная система, с помощью которой можно управлять потоками данных и делать магию. А становиться волшебником или нет - решать Вам!