Найти тему

Что такое "данные" и как они устроены: базовые термины

Оглавление

Истоки

Прежде чем говорить об удивительном мире данных, нужно разобраться, откуда это понятие вообще взялось, и почему стало так важно в нашем 21 веке.

Пойдем к истокам и обратимся к термину "ИНФОРМАЦИЯ". Именно с нее начинается вся наука о данных. Это слово очень обыденно для нас, но на самом деле ее ценность гораздо выше, чем вы можете себе представить.

Информация сегодня - это мега важный ресурс во многих сферах жизни, который объединяет в себе всю совокупность сведений и фактов о мире, начиная от каждой сопельки, заканчивая целыми информационными системами.

Ценность информации заключается в том, какую практическую пользу можно извлекать из нее. (спойлер: большую). Но извлекать пользу можно только из пригодной для анализа информации. Поэтому прежде всего требуется структурирование и предварительная обработка. Существуют разные формы представления информации. Наиболее распространенные из них это:

  1. Текстовая
  2. Числовая
  3. Звуковая
  4. Графическая
  5. Видео

Каждая из этих форм имеет свои особенности и требует индивидуального подхода в процессе сбора, обработки и использования.

Так вот, ДАННЫЕ - это и есть информация, представленная в определенном структурированном виде, пригодном для автоматизации сбора, обработки и дальнейшего манипулирования.

Как устроена data

В этой статье я буду опираться на классическую реляционную модель, в которой все данные организованы в форме таблиц для облегчения базового понимания.

Поэтому, как ни странно, наука о данных начинаются с табличек в EXCEL! На их примере мы и рассмотрим все базовые понятия (p.s. используйте картинки ниже) :

Признак - это поле, которое описывает отдельную характеристику объекта, то есть является качественным. Основные типы данных: строки, бинарные переменные (принимают только 2 возможных значения), категориальные, даты и тд.

Показатель - расчетное поле, в котором содержится количественная информация. К этим полям применяются все агрегатные функции, с ними производятся все расчеты (например: суммирование)

Атрибут - это признак, который является характеристикой определенной сущности. Чаще всего понятие атрибута используются для описания полей в мастер-данных (см. определние ниже)

Поле (неформ. - столбец) - это общее название колонки, которая содержат любое определённое свойство данных. И признаки, и атрибуты, и показатели - это поля таблицы.

Мастер-данные (основные данные) - данные, которые характеризуют какую-то сущность (поставщик, студенты, магазины, товары) и редко обновляются или меняются (Табл.2)
Транзакционные данные - данные, которые фиксируют какие-то события (транзакции) и часто обновляются (продажи, финансовые проводки, поставки, закупки) (Табл.1)

Так, в таблице 1 названия товаров, номера магазинов и дни, когда была осуществлена каждая продажа - это признаки. Сумма и количество - это показатели. С ними можно проводить различные вычислительные манипуляции.

Важно! несмотря на то, что номер магазина - это число, поле все равно является качественной характеристикой.

Таблица 1: Таблица продаж кондитерских (транзакционные данные)
Таблица 1: Таблица продаж кондитерских (транзакционные данные)

Во второй таблице представлены данные о всех открытых магазинах. Это мастер-данные. Здесь уже каждое описательное поле является не просто признаком, а атрибутом поля "Магазин".

Таблица 2: Таблица атрибутов магазинов (мастер-данные)
Таблица 2: Таблица атрибутов магазинов (мастер-данные)

Запись/кортеж/(неформ. - строка) - это полная совокупностью характеристик, которые описывают одно конкретное событие/объект. В приведенной таблице мастер-данных каждая строка определяет конкретный магазин и все его характеристики.

Домен - это набор всех допустимых и доступных значений для какого-либо признака. Пример: доменом атрибута "Город" является список всех городов России.

Тип данных: мы уже говорили, что данные могут быть представлены в разной форме, и каждая требует особой обработки. Так вот, по умному это называется тип данных. Стандартные типы данных:

  1. Числовые значения (десятичные и целые числа)
  2. Строковые значения
  3. Дата и время (темпоральные данные)

Ну и наконец:

Отношение (relation) - это и есть таблица. Вернее, таблица - это графическая форма представления отношения. В данной статье визуализированы два отношения. По этой причине модель и называется реляционной (realtional), так как все данные в ней представлены в виде таблиц (отношений), связанных друг с другом.

Все, что я описала выше - это лишь база, необходимая для понимания того, на чем строятся данные в классическом понимании. Все последующие и более сложные темы так или иначе будут опираться на эти понятия, поэтому владение и корректное оперирование ими - мастхев. Теперь мы переступила порог в мир данных. Добро пожаловать!

В других статьях мы будем более подробно разбирать архитектуру БД, другие виды моделей данный и принципы, на основе которых из океана информации получается конфетка! Конкретно, вкусно и без воды!