Истоки
Прежде чем говорить об удивительном мире данных, нужно разобраться, откуда это понятие вообще взялось, и почему стало так важно в нашем 21 веке.
Пойдем к истокам и обратимся к термину "ИНФОРМАЦИЯ". Именно с нее начинается вся наука о данных. Это слово очень обыденно для нас, но на самом деле ее ценность гораздо выше, чем вы можете себе представить.
Информация сегодня - это мега важный ресурс во многих сферах жизни, который объединяет в себе всю совокупность сведений и фактов о мире, начиная от каждой сопельки, заканчивая целыми информационными системами.
Ценность информации заключается в том, какую практическую пользу можно извлекать из нее. (спойлер: большую). Но извлекать пользу можно только из пригодной для анализа информации. Поэтому прежде всего требуется структурирование и предварительная обработка. Существуют разные формы представления информации. Наиболее распространенные из них это:
- Текстовая
- Числовая
- Звуковая
- Графическая
- Видео
Каждая из этих форм имеет свои особенности и требует индивидуального подхода в процессе сбора, обработки и использования.
Так вот, ДАННЫЕ - это и есть информация, представленная в определенном структурированном виде, пригодном для автоматизации сбора, обработки и дальнейшего манипулирования.
Как устроена data
В этой статье я буду опираться на классическую реляционную модель, в которой все данные организованы в форме таблиц для облегчения базового понимания.
Поэтому, как ни странно, наука о данных начинаются с табличек в EXCEL! На их примере мы и рассмотрим все базовые понятия (p.s. используйте картинки ниже) :
Признак - это поле, которое описывает отдельную характеристику объекта, то есть является качественным. Основные типы данных: строки, бинарные переменные (принимают только 2 возможных значения), категориальные, даты и тд.
Показатель - расчетное поле, в котором содержится количественная информация. К этим полям применяются все агрегатные функции, с ними производятся все расчеты (например: суммирование)
Атрибут - это признак, который является характеристикой определенной сущности. Чаще всего понятие атрибута используются для описания полей в мастер-данных (см. определние ниже)
Поле (неформ. - столбец) - это общее название колонки, которая содержат любое определённое свойство данных. И признаки, и атрибуты, и показатели - это поля таблицы.
Мастер-данные (основные данные) - данные, которые характеризуют какую-то сущность (поставщик, студенты, магазины, товары) и редко обновляются или меняются (Табл.2)
Транзакционные данные - данные, которые фиксируют какие-то события (транзакции) и часто обновляются (продажи, финансовые проводки, поставки, закупки) (Табл.1)
Так, в таблице 1 названия товаров, номера магазинов и дни, когда была осуществлена каждая продажа - это признаки. Сумма и количество - это показатели. С ними можно проводить различные вычислительные манипуляции.
Важно! несмотря на то, что номер магазина - это число, поле все равно является качественной характеристикой.
Во второй таблице представлены данные о всех открытых магазинах. Это мастер-данные. Здесь уже каждое описательное поле является не просто признаком, а атрибутом поля "Магазин".
Запись/кортеж/(неформ. - строка) - это полная совокупностью характеристик, которые описывают одно конкретное событие/объект. В приведенной таблице мастер-данных каждая строка определяет конкретный магазин и все его характеристики.
Домен - это набор всех допустимых и доступных значений для какого-либо признака. Пример: доменом атрибута "Город" является список всех городов России.
Тип данных: мы уже говорили, что данные могут быть представлены в разной форме, и каждая требует особой обработки. Так вот, по умному это называется тип данных. Стандартные типы данных:
- Числовые значения (десятичные и целые числа)
- Строковые значения
- Дата и время (темпоральные данные)
Ну и наконец:
Отношение (relation) - это и есть таблица. Вернее, таблица - это графическая форма представления отношения. В данной статье визуализированы два отношения. По этой причине модель и называется реляционной (realtional), так как все данные в ней представлены в виде таблиц (отношений), связанных друг с другом.
Все, что я описала выше - это лишь база, необходимая для понимания того, на чем строятся данные в классическом понимании. Все последующие и более сложные темы так или иначе будут опираться на эти понятия, поэтому владение и корректное оперирование ими - мастхев. Теперь мы переступила порог в мир данных. Добро пожаловать!
В других статьях мы будем более подробно разбирать архитектуру БД, другие виды моделей данный и принципы, на основе которых из океана информации получается конфетка! Конкретно, вкусно и без воды!