После выбора аналитического подхода и классификации дерева решений первой задачей стало определить требования к данным.
Критерии выборки
Из базы медицинских страховых компаний нужно было выбрать группу подходящих пациентов, по которым можно увидеть всю историю болезни . Для этого определили три критерия, по которым больной должен:
- Находиться в стационаре, чтобы собрать необходимую информацию по истории болезни.
- Впервые госпитализирован с диагнозом застойной сердечной недостаточности.
- Наблюдаться как минимум шесть месяцев до первичной госпитализации с ЗСН.
Критерии исключения
Полученную выборку очистили от данных, которые могли исказить результаты. Для этого определили критерии исключения пациентов из группы исследования:
- Пациенты, у которых были диагностированы другие серьёзные заболевания. Они также могли стать причиной госпитализации и, таким образом, исказить результаты.
Содержание данных
Затем определили формат и содержание представления данных. Для классификации дерева решений требуется, чтобы по каждому пациенту была создана одна запись в виде строки со множеством столбцов, которые представляли собой переменные, определённые в модели. Чтобы смоделировать исход повторной госпитализации, необходимы данные, охватывающие все аспекты истории болезни пациента:
- Госпитализации;
- Первичные, вторичные и третичные диагнозы;
- Процедуры;
- Рецепты;
- Услуги врача во время посещений и в стационаре.
Формат данных
У одного больного могут быть тысячи записей, представляющие все связанные признаки. Нужно было свернуть все транзакции, представив их на уровне пациента. Специалисты по обработке данных сформировали такую базу, создав ряд новых переменных.