Найти в Дзене
Дата Сайентист

Кейс в Data Science: применение в медицие.

Оглавление

Data Collection

Сбор данных

В предыдущей части было рассмотрено, как определяются требования к данным для проведения исследования. Следующий этап работы дата сайентиста — сбор данных.

Источники

Для сбора данных необходимо знать источники: где найти элементы данных? Они могут включать, касательно пациентов с диагнозом застойной сердечной недостаточности, информацию:

  • демографическую;
  • клиническую;
  • фармацевтическую;
  • о страховом покрытии;
  • о поставщиках медицинских услуг;
  • о заявках на оказание процедур и пр.

Информация о лекарствах также была необходима, но она оказалась недоступна на момент проведения исследований. Для её получения требовалось время, поэтому перед специалистами по данным встал вопрос: продолжать исследование или дождаться информации, если она важна для получения хорошей модели.

Недостающие данные

В некоторых случаях недостающие данные можно подключить на более поздних этапах. Это можно сделать даже после получения промежуточных результатов прогнозного моделирования. Специалисты по данным смогли построить достаточно хорошую модель без информации о лекарствах.

Избыточные данные

На этом этапе администраторы баз данных и программисты работают вместе, чтобы извлечь данные из различных источников, а затем объединить их. Избыточные данные удаляют, делая их более понятными и доступными.

Управление данными

Специалисты по данным и аналитики обсуждают способы эффективного управления данными, включая автоматизацию процессов в базе данных, чтобы сбор данных был проще и быстрее.

Продолжение следует...