Найти тему

Observation в Статистике простыми словами

Фото: @supernov
Фото: @supernov

Наблюдение (в контексте также: пример, строка, запись, единица наблюдения, точка, сущность; обозначается X) – это ценные данные, собираемые во время исследования или эксперимента (рост человека, размер банковского счета в определенный момент времени, количество животных). Вместе с масштабом анализа определяет Совокупность (Population).

Пять наблюдений
Пять наблюдений

Например, предположим, что вы измеряете, как меняется размер сбережений за один год. Вы отслеживаете один параметр – баланс вашего банковского счета каждые три месяца, и за год получаете четыре наблюдения:

  • Март = $564
  • Июнь = $576
  • Сентябрь = $587
  • Декабрь =$599

Обратите внимание: «наблюдение» не означает, что мы его наблюдали. Кто-то другой мог это записать. Это может быть даже информация, которую нашли в ходе раскопок. Многое зависит от того, что мы ищем. Допустим, наши находки с раскопок – записи лавочника, жившего в XII веке. В зависимости от цели исследования наблюдениями могут стать и продажи, и закупки, и доля распроданных товаров.

Эмпирические исследования – это практические эксперименты с результатами на основе реального опыта, а не теории или убеждений. Основополагающим принципом Науки о данных (Data Science) стал приоритет наблюдения над предположением. Прежде чем создавать суждение, мы исследуем данные, но не наоборот.

Систематическая ошибка наблюдения возникает, когда информация собирается, интерпретируется или измеряется неточно в разных группах наблюдений. К примеру, в начале эксперимента лавочник записывал самые мелкие продажи, затем прекратил, и масштаб данных изменился.

Типы наблюдений

Измерения, содержащиеся в единице наблюдения, могут выражаться с помощью различных типов данных:

  • Числовой тип: целые (Integer), вещественные (Real Number), а также числа с плавающей запятой (Float)) (например, количество фруктов: 10)
  • Булевый тип (Boolean Data; сдан ли экзамен: да / нет)
  • Категориальный (Categorical Variable; жанры кино: комедия, ужасы, мелодрама)
  • Вектор (Vector; пиксель как элемент изображения описывают с помощью RGB-кода: 255, 255, 0)

Смысл наблюдения часто и в том, чтобы визулизировать данные; во многих случаях они превращаются в числа до построения графиков, к примеру, с помощью Быстрого кодирования (One-Hot Encoding) .

В одну точку, отображающую наблюдение, вкладывается много информации
В одну точку, отображающую наблюдение, вкладывается много информации

Каждое наблюдение принято обозначать отдельной точкой на графике, причем форма, размер, цвет ее характеризуют сразу несколько признаков наблюдения. К примеру, на графике размера населения в разных странах размер точки характеризует величину популяции, цвет – расположение страны в той или иной части света (Европа, Азия и т.д.). Чем фиолетовее точка, тем плотнее население страны. За положение точки относительно осей координат отвечают параметры:

  • Валовой внутренний продукт, приходящийся на человека в день (gdp_per_day – ось x)
  • Ожидаемая продолжительность жизни (life_expectancy – ось y)

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал . И попробуйте наши курсы по Машинному обучению на Udemy.