Подготовка данных
В предыдущей части было рассмотрен этап сбора данных для проведения исследования. Следующий этап работы дата сайентиста — подготовка данных.
Определение критериев
Этап подготовки данных фактически начали с определения диагноза - застойной сердечной недостаточности. В теории это должно было быть легко. Но на деле, дать точное определение оказалось непросто. Нужно было учесть, что ЗСН — это только один из разновидностей сердечной недостаточности, и подразумевает накопление определённых видов жидкости. Требовались консультации медиков, чтобы получить правильные коды для диагноза.
Следующим шагом было выявление критериев повторной госпитализации. Необходимо было оценить время события, чтобы определить, было ли данное поступление в стационар исходным событием, или повторным. Основываясь на клинической экспертизе, был установлен 30-дневный период после выписки из первичной госпитализации в качестве окна для повторной госпитализации. Затем транзакции были агрегированы, таким образом, что для каждого пациента собралось несколько записей данных. Записи включали в себя страховые заявки от поставщиков медицинских услуг, оказанных по запросам врачей, лабораторий, больниц и клиник. Также были включены записи, описывающие все диагнозы, процедуры, рецепты и другую информацию о стационарных и амбулаторных пациентах.
Агрегирование данных
На каждого больного собрали сотни или даже тысячи записей, в зависимости от истории болезни. Затем все транзакции были агрегированы так, чтобы в результате была получена таблица с отдельной строкой для каждого пациента, как это требуется для метода классификации дерева решений, который будет использоваться для моделирования. В процессе агрегирования было создано много новых столбцов, представляющих информацию о транзакциях. Например, частота посещения врачей, клиник, больниц, процедуры, рецепты и т. д. Также учитывались сопутствующие хронические заболевания, такие как диабет, гипертония и многие другие, которые могли повлиять на риск повторной госпитализации.
Литературный обзор
Во время обсуждения подготовки данных был проведён литературный обзор по ЗСН, чтобы не упустить из виду какие-либо важные элементы данных. Он потребовал возврата к этапу сбора данных, чтобы добавить ещё несколько показателей. Данные по транзакциям на уровне пациента объединили с демографическими данными: возраст, пол, тип страхования и т. д. Результатом стало создание одной таблицы, содержащей отдельную запись для каждого пациента, со многими столбцами, представляющими атрибуты пациента в истории болезни. Эти столбцы будут использоваться в качестве переменных в прогнозном моделировании.
Зависимая переменная
В итоге при построении модели целью была определена повторная госпитализация с ЗСН в течение 30 дней после выписки с первой. Эта переменная принимала значения «да» или «нет».
Выборка
На этапе подготовки данных сформировали репрезентативную выборку из 2343 пациентов, удовлетворяющую всем критериям исследования. Её разделили на обучающий и тестовый наборы, которые использовали для построения и проверки модели.
Продолжение следует...