Найти в Дзене

Типы данных и цели их сбора

Для того, чтобы с головой окунуться в мир модного нынче data science или же просто принимать обоснованные решения на основе фактов, требуется пройти несколько подготовительных этапов. Настоящая статья является одним из таких, и призвана познакомить вас с целями сбора информации и типами данных. В прошлом материале я вкратце рассказал о том, что решения, которые принимает человек на основе своей интуиции, часто оказываются ошибочными. Интуиция подсказывает неверное решение по нескольким причинам. Одной из них является та, что она может быть «недостаточно тренирована» и «недостаточно опытна». Другой — что даже компетентный человек, не опираясь на данные, может находиться в плену когнитивных и прочих иллюзий. Взять хотя бы знаменитый пример со стрелками. Посмотрите на картинку ниже и скажите (не задумываясь), какая горизонтальная линия длиннее: оранжевая (левая) или красная (правая)? А теперь давайте разбираться. На рисунке выше был приведён вариант знаменитой оптической иллюзии Мюллера-
Оглавление

Для того, чтобы с головой окунуться в мир модного нынче data science или же просто принимать обоснованные решения на основе фактов, требуется пройти несколько подготовительных этапов. Настоящая статья является одним из таких, и призвана познакомить вас с целями сбора информации и типами данных.

В прошлом материале я вкратце рассказал о том, что решения, которые принимает человек на основе своей интуиции, часто оказываются ошибочными. Интуиция подсказывает неверное решение по нескольким причинам. Одной из них является та, что она может быть «недостаточно тренирована» и «недостаточно опытна». Другой — что даже компетентный человек, не опираясь на данные, может находиться в плену когнитивных и прочих иллюзий.

Взять хотя бы знаменитый пример со стрелками. Посмотрите на картинку ниже и скажите (не задумываясь), какая горизонтальная линия длиннее: оранжевая (левая) или красная (правая)?

-2

А теперь давайте разбираться.

На рисунке выше был приведён вариант знаменитой оптической иллюзии Мюллера-Лайера: горизонтальная линия со стрелками «внутрь» кажется короче, чем та, которая стрелками «наружу». Об этом «обмане зрения» я впервые прочитал ещё в средней школе, а сам обман состоит в том, что на самом деле обе горизонтальные линии обладают совершенно одинаковой длиной.

Предлагаю на этом месте вернуться к картинке и зафиксировать следующее: глаз видит, что левая стрелка короче правой, но вы знаете, что они одинаковой длины. Вот такое вот удивительное противоречие.

На этом историю со стрелками Мюллера-Лайера можно было бы оставить в покое, если бы не одно «но». Я предполагал, что вы ответите, что горизонтальные линии одинаковой длины, поэтому специально изменил длину одной из них. Каков же правильный ответ — вы узнаете в конце статьи.

На этом разминка закончилась, переходим к теме рассказа.

Что касается каких бы то ни было данных, ситуация тут типичная: мы не собираем их там, где это действительно необходимо и, напротив, страдаем от изобилия данных в других сферах жизни или бизнеса.

Марк Твен сказал: «Данные подобны мусору. Необходимо понять, что мы собираемся делать с ними еще до того, как мы их получим». Эта цитата, как и многие другие, коими наводнён интернет, скорее всего, выдуманная, что не отменяет её справедливости.

-3

Процесс получения данных может быть более или менее затратным, но, в любом случае, он является потерей — как для организации, так и для отдельно взятого человека. Если на собранные данные не обращается внимание, не проводится их анализ и принятие решений на его основе, они не добавляют реальной стоимости товару или услуге. В связи с этим следует заниматься получением только полезных данных и не терять время на сбор никому не нужной информации.

Часто бывает так, что данные были нужны на каком-то начальном этапе проекта, затем процесс стабилизировался, а данные как регистрировались, так продолжают собираться по инерции.

Одно время я был вовлечён в оптимизацию на одном «неконвейерном» производстве. В маршрутных картах помимо количества сырья, добавляемого на каждой операции, дополнительно фиксировались её начало и завершение. Данные при этом записывались в бумажный лист оператором собственноручно. На этапе запуска завода такой подход был оправдан — тогда требовалось понимание норм времени каждой технологической стадии.

Со временем объёмы и ассортимент производства многократно выросли, производство — отлажено, а столбцы в маршрутных картах, где фиксировалось время, остались. Более того, появилась даже должность учётчика, который оцифровывал времена операций и переносил их в специальную базу данных. Как часто бывает в отечественных организациях, все собираемые данные лежали мёртвым грузом и никакого участия в жизни компании не принимали.

-4

Когда я предложил удалить из маршрутных карт столбцы со временем, прекратить его регистрацию и на бумаге, и в базе данных, а учётчика перевести отдел планирования для усиления, на меня посмотрели, будто я покусился на самое святое. И, разумеется, с первого наскока удалить этот, сложившийся годами рудимент, мне не удалось.

Сопротивление пало только после того, когда я нашёл ошибки — и в данных на бумажном носителе, и на компьютере. Это было несложно — если информация лежит без движения и не анализируется, то некому и увидеть огромное количество ошибок и опечаток. А если ошибки являются системными, то они начинают копиться как снежный ком.

Так что же удалось сделать в итоге? Удалось высвободить по пятнадцать минут у каждого оператора цеха, а этих операторов было около пятидесяти. Много это или мало? Пятнадцать минут — это 3% от времени рабочей смены. Плюс должность учётчика. Вот вам цена бессмысленного сбора информации.

Поговаривают (но это не точно), что Натан Майер Ротшильд, два века назад произнёс: «Кто владеет информацией, тот владеет миром». А поскольку он вряд ли бы стал бросать слова на ветер, плавно переходим к целям сбора данных.

Назначение данных

Итак, для чего же обычно собирается информация? Обычно принято выделять несколько основных пунктов:

  • Для описания объектов и явлений (длина международной космической станции составляет 109 м, высота орбиты — 407 км, а скорость — 7,7 км/с).
  • Для принятия решений (сегодня на улице -20 градусов, поэтому придётся надеть пуховик).
  • Для оказания влияния (люди, которые выкуривают пачку сигарет в сутки, имеют шансы заболеть раком лёгких в 20 раз выше).
  • Для прогнозирования (цена на газ существенно выросла, поэтому стоит ждать повышения цен на производимое в Европе сырьё).

Перечисленные выше варианты не являются каким-то устоявшимся перечнем, каждый волен добавлять в него свои пункты. Я бы добавил туда пункт «Для прикрытия задницы», так как регулярно наблюдаю ситуацию, когда средний и линейный менеджмент распространяет монополию на «свои» данные, скрывает их от смежных подразделений и предъявляет их только в тех случаях, когда возникают вопросы по эффективности его работы. К сожалению, вышестоящее руководство не всегда обладает способностью правильно их интерпретировать, часто просто пасуя перед большими наборами каких-то малопонятных цифр.

-5

Обо всём этом я обязательно расскажу на страницах своего канала, дам вредные советы (для сотрудников) и полезные советы (для руководителей) на тему того, как при помощи данных облегчить себе жизнь, поэтому — не забудьте подписаться на канал! А пока переходим к следующей несложной теме — типам данных.

Типы данных

Следует твёрдо понимать, что данные — это не только столбцы чисел. Зачастую их невозможно, очень сложно или даже бессмысленно превращать в какие-то числа. Взять, к примеру, цвет автомобилей. Или текстуру ткани. Или пол, семейное положение и национальность. Такой тип данных, а именно, данных, которые выражаются в виде качеств (атрибута) объекта принято называть качественными или атрибутивными.

-6

В противоположность им существуют количественные или числовые данные — данные выражаемые числами. Примерами их являются результаты измерений роста, веса, температуры, прибыли и так далее.

Количественные данные, в свою очередь, можно разбить ещё на два типа: количественные дискретные и непрерывные данные.

Дискретные данные могут принимать только определенные значения. Потенциально этих значений может быть огромное количество, но каждое из них отличается, и промежуток между ними нельзя (или нецелесообразно) заполнять другими значениями. Примером дискретных количественных данных является количество детей в семье, колёс у транспортного средства, оценка в школе, наличие или отсутствие чего-либо, ответы «да-нет» и тому подобно.

К сожалению, дискретные данные не слишком информативны. Для получения статистически значимых результатов требуются их большие выборки, а количество инструментов для работы с ними невелико.

Непрерывные данные не ограничиваются определенными значениями и могут принимать любое значение в непрерывном диапазоне. Между любыми двумя непрерывными значениями данных может быть бесконечное число других значений.

Непрерывные данные всегда числовые. А вот что касается дискретных данных, то они могут быть как количественными, так и качественными. Качественные данные (цвет машины, текстура ткани, пол, семейное положение) всегда дискретны.

Непрерывные данные очень информативны, над ними можно проводить математические операции и применять полный спектр статистических инструментов. Небольшое количество данных может дать значительное количество информации, поэтому следует использовать этот тип данных настолько часто, насколько это возможно.

Чтобы как-то уложить вышесказанное в голове, я создал нижеследующую схему, которую вы можете скачать совершенно бесплатно:

-7

Тут вы можете заметить, что качественные данные тоже можно поделить на две группы: номинальные и порядковые. Первые — это качественные данные, которые никак между собой не связаны (тип варенья в банках, цвет машины). Вторые — это качественные данные, которые при желании можно ранжировать, выстроить в некоем логическом порядке (ледяной-холодный-прохладный-тёплый-горячий-огненный).

Надеюсь, что картинка помогла вам уложить все эти термины в голове. А теперь, как перфекционист, не могу более скрывать правду и не донести до вас ужасное известие. На самом деле, все данные, в том числе и кажущиеся непрерывными, являются дискретными! Какая бы измерительная техника не применялась, у неё есть определённая «цена деления», дискретность. И более того, в нашем бренном мире все наблюдаемые случайные величины имеют дискретные значения. Непрерывное распределение — это математическая абстракция, удобная для статистической обработки, но фактически не наблюдаемая.

Вы, конечно, спросите, на кой тогда ляд городился весь этот огород с терминологией?!

А вот для чего было нужно:

  • к разным типам данным в дальнейшем будут применяться разные статистические инструменты;
  • разные типы данных обладают разной ценностью;
  • данные даже низкой ценности лучше, чем их отсутствие.

Что дальше?

В следующей статье мне хотелось бы с шашкой наголо уже приступить к анализу данных. При этом нельзя не рассказать о техниках их получения и ошибках при сборе информации. А, может быть, вы подскажете лучшую идею для следующего выпуска?

Оглавление канала "Иллюзия рациональности" вы можете найти по следующей ссылке.

А теперь — правильный ответ

Возвращаясь к оптической иллюзии в начале статьи — правильный ответ: оранжевая линия длиннее примерно на 3%. Я сам нарисовал эту картинку на графическом планшете у дочери. Теперь посмотрите на неё ещё раз и удивитесь:

  • глаз видит, что левая горизонтальная линия короче;
  • разум знает, что он уже когда-то видел эту картинку, и обе линии должны быть равны;
  • и только данные измерений доказывают, что левая линия длиннее.