Наблюдение (в контексте также: пример, строка, запись, единица наблюдения, точка, сущность; обозначается X) – это ценные данные, собираемые во время исследования или эксперимента (рост человека, размер банковского счета в определенный момент времени, количество животных). Вместе с масштабом анализа определяет Совокупность (Population).
Например, предположим, что вы измеряете, как меняется размер сбережений за один год. Вы отслеживаете один параметр – баланс вашего банковского счета каждые три месяца, и за год получаете четыре наблюдения:
- Март = $564
- Июнь = $576
- Сентябрь = $587
- Декабрь =$599
Обратите внимание: «наблюдение» не означает, что мы его наблюдали. Кто-то другой мог это записать. Это может быть даже информация, которую нашли в ходе раскопок. Многое зависит от того, что мы ищем. Допустим, наши находки с раскопок – записи лавочника, жившего в XII веке. В зависимости от цели исследования наблюдениями могут стать и продажи, и закупки, и доля распроданных товаров.
Эмпирические исследования – это практические эксперименты с результатами на основе реального опыта, а не теории или убеждений. Основополагающим принципом Науки о данных (Data Science) стал приоритет наблюдения над предположением. Прежде чем создавать суждение, мы исследуем данные, но не наоборот.
Систематическая ошибка наблюдения возникает, когда информация собирается, интерпретируется или измеряется неточно в разных группах наблюдений. К примеру, в начале эксперимента лавочник записывал самые мелкие продажи, затем прекратил, и масштаб данных изменился.
Типы наблюдений
Измерения, содержащиеся в единице наблюдения, могут выражаться с помощью различных типов данных:
- Числовой тип: целые (Integer), вещественные (Real Number), а также числа с плавающей запятой (Float)) (например, количество фруктов: 10)
- Булевый тип (Boolean Data; сдан ли экзамен: да / нет)
- Категориальный (Categorical Variable; жанры кино: комедия, ужасы, мелодрама)
- Вектор (Vector; пиксель как элемент изображения описывают с помощью RGB-кода: 255, 255, 0)
Смысл наблюдения часто и в том, чтобы визулизировать данные; во многих случаях они превращаются в числа до построения графиков, к примеру, с помощью Быстрого кодирования (One-Hot Encoding) .
Каждое наблюдение принято обозначать отдельной точкой на графике, причем форма, размер, цвет ее характеризуют сразу несколько признаков наблюдения. К примеру, на графике размера населения в разных странах размер точки характеризует величину популяции, цвет – расположение страны в той или иной части света (Европа, Азия и т.д.). Чем фиолетовее точка, тем плотнее население страны. За положение точки относительно осей координат отвечают параметры:
- Валовой внутренний продукт, приходящийся на человека в день (gdp_per_day – ось x)
- Ожидаемая продолжительность жизни (life_expectancy – ось y)
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy.