Data Collection
Сбор данных
В предыдущей части было рассмотрено, как определяются требования к данным для проведения исследования. Следующий этап работы дата сайентиста — сбор данных.
Источники
Для сбора данных необходимо знать источники: где найти элементы данных? Они могут включать, касательно пациентов с диагнозом застойной сердечной недостаточности, информацию:
- демографическую;
- клиническую;
- фармацевтическую;
- о страховом покрытии;
- о поставщиках медицинских услуг;
- о заявках на оказание процедур и пр.
Информация о лекарствах также была необходима, но она оказалась недоступна на момент проведения исследований. Для её получения требовалось время, поэтому перед специалистами по данным встал вопрос: продолжать исследование или дождаться информации, если она важна для получения хорошей модели.
Недостающие данные
В некоторых случаях недостающие данные можно подключить на более поздних этапах. Это можно сделать даже после получения промежуточных результатов прогнозного моделирования. Специалисты по данным смогли построить достаточно хорошую модель без информации о лекарствах.
Избыточные данные
На этом этапе администраторы баз данных и программисты работают вместе, чтобы извлечь данные из различных источников, а затем объединить их. Избыточные данные удаляют, делая их более понятными и доступными.
Управление данными
Специалисты по данным и аналитики обсуждают способы эффективного управления данными, включая автоматизацию процессов в базе данных, чтобы сбор данных был проще и быстрее.
Продолжение следует...