Понимание данных
В предыдущей части было рассмотрено, как происходит сбор данных для проведения исследования. Следующий этап работы дата сайентиста — понимание данных.
Первоначально госпитализация по причине застойной сердечной недостаточности (ЗСН) определялась на основании первичного диагноза. Но работа на этапе понимания данных показала, что это определение не охватывало всех случаев, которые ожидались на основе клинического опыта. Для специалистов Data Science это означало возврат к этапу сбора данных и добавление вторичных и третичных диагнозов. Выявилась необходимость создания более полного определения госпитализации с ЗСН.
Статистическая оценка данных
Чтобы понять данные, относящиеся к госпитализации с застойной сердечной недостаточностью, необходимо было собрать статистику по столбцам таблицы, которые являются переменными в модели.
- Они включали в себя показатель Хёрста, для анализа временных рядов, одномерные и статистические данные по каждой переменной, такие как:
- среднее значение,
- медиана,
- минимум,
- максимум,
- стандартное отклонение.
2. Анализировались парные корреляции, чтобы увидеть, насколько тесно связаны между собой определённые переменные. Если среди них имеются сильно коррелированые, то можно использовать для моделирования только одну из пары, другую удалив как избыточную.
3. Изучены гистограммы распределения переменных.
Гистограммы - хороший способ понять, как распределяются значения, и какие виды подготовки данных могут потребоваться, чтобы сделать переменную более полезной в модели.
Например, для переменной, которая имеет слишком много различных значений, гистограмма поможет решить, как объединить эти значения, чтобы повысить информативность модели.
Оценка качества данных
Одномерные параметры, статистика и гистограммы также используются для оценки качества данных.
В результате изучения и понимания данных некоторые переменные могут быть изменены или, возможно, даже отброшены при необходимости.
Например, когда у переменной много пропущенных значений, возникает вопрос, что означает их отсутствие? Отсутствующий поеказатель может означать «нет» или ноль, а иногда — «мы не знаем».
В другом случае, если переменная содержит недопустимые или вводящие в заблуждение значения, нужно вносить исправления.
Например, числовая переменная с именем «возраст» имела значение 999, что фактически означало «отсутствует». Если это не исправить, то оно будет рассматриваться как допустимое значение и исказит картину.
Итеративные процессы в работе с данными
Это всего лишь один пример итеративных процессов в методологии. Чем больше человек работает с проблемой и данными, тем больше он их понимает и, следовательно, тем больше уточнений может сделать в модели, что в конечном счёте приведёт к лучшему решению проблемы.
Продолжение следует...