Найти тему

Качественный сравнительный анализ медицинских и эпидемиологических данных

Оглавление

Мы сделали интересный обзор про один интересный метод анализа данных и опубликовали его на preprints.org. Давайте разберемся с основными этапами QCA и обсудим возможности его применения для анализа медицинских и эпидемиологических данных.

https://doi.org/10.20944/preprints202309.2111.v1
https://doi.org/10.20944/preprints202309.2111.v1

Качественный сравнительный анализ (QCA) — это нестатистический метод анализа данных, основанный на поиске достаточных и необходимых условий развития изучаемого явления. Метод был разработан для анализа небольших выборок данных, где статистические методы не работаю.


Метод опирается на теоретические знания из области теории множеств и математической логики, позволяет разрабатывать интерпретируемые модели, представляющие собой минимизированное логическое выражение, и сегодня является важным инструментом в арсенале аналитика данных.

Калибровка


Для проведения QCA требуется представление данных в особом формате, где все независимые и зависимые переменные преобразуются в показатели принадлежности к некоторому множеству. При использовании чётких множеств, переменная калибруется в одно из двух значений: 0 или 1 (ЛОЖЬ или ИСТИНА), например, пациент либо принадлежит множеству пациентов мужского пола (1), либо не принадлежит (0). В случае использования нечётких множеств, переменная калибруется в одно из континуума значений на
числовом отрезке от 0 до 1.

Многие биомедицинские и эпидемиологические показатели нуждаются в качественной оценке, нередко с использованием субъективных или теоретически обоснованных пороговых значений, поэтому они легко поддаются калибровке. Для преобразования переменной в показатель принадлежности нечёткому множеству существует несколько наиболее распространенных подходов с использованием монотонных (линейной или логистической) и немонотонных (треугольной или трапециевидной) функций.

Анализ необходимости и достаточности


QCA с позиции теории множеств позволяет изучить при каких условиях возникает нужный результат. Исследователи могут выдвинуть различные гипотезы о том, как возникают изучаемые явления и проверить их с помощью QCA. Различные условия по-разному влияют на результат, однако некоторые из них настолько важны, что результат не произойдет в их отсутствии. Условие является необходимым (Рисунок A и С), если оно всегда присутствует, когда происходит изучаемое явление, а достаточным (Рисунок B и D), если результат всегда происходит, когда присутствует данное условие.

-2

Полное включение одного множества наблюдений в другое на практике встречается редко. В большинстве случаев одно множество частично включено в другое множество (Рисунок C и D). Например, не у всех пациентов с гриппом будет наблюдаться ломота в мышцах и суставах, однако, у многих. В QCA используется несколько специальных показателей, которые позволяют более точно описать связь необходимых и достаточных условий с результатом (включение, покрытие и др.).

Таблица истинности


Таблица истинности — это основной аналитический инструмент, необходимый для выполнения процесса минимизации в QCA. Калиброванные данные позволяют построить таблицу истинности, где в строках содержатся все условия с участием всех независимых переменных одновременно. Следующим шагом является распределение отдельных наблюдений по соответствующим строкам таблицы истинности с подсчётом общего количества наблюдений, соответствующих каждому условию, и расчетом значения на выходе.

Если условию из таблицы истинности не соответствует ни одно наблюдение, оно называется остатком и может использоваться в логической минимизации для поиска более простого решения. Далеко не все остатки, как и не все наблюдаемые условия используются в процессе минимизации, многие из них несостоятельных и должны быть исключены аналитиком.

Логическая минимизация


Объединение всех достаточных условий из таблицы истинности позволяет получить совершенную дизъюнктивную нормальную форму. Такое логическое выражение может быть сокращено до значительно более простой формы. Существуют различные подходы к минимизации логических функций от метода непосредственных преобразований и минимизирующих карт до
аналитических и эвристических методов: классический алгоритм Куайна-МакКласки (QMC), eQMC, CCubes и Espresso. Методы различаются подходом к оптимизации расчётов, а следовательно — эффективностью использования
вычислительной мощности и памяти компьютера. Так, например, метод QMC достигает своего предела примерно при включении 11-12 независимых переменных, в то время как алгоритм CCubes может легко обрабатывать до 30 причинных условий без необходимости использования дополнительной памяти.

Пример использования минимизирующих карт.
Пример использования минимизирующих карт.

Медицинские и эпидемиологические исследования являются одними из самых организационно сложных и дорогостоящих исследований, в которых часто возникают проблемы с формированием репрезентативных, сбалансированных выборок большого объема и нередко изучаются абстрактные понятия и даются субъективные оценки. Для того чтобы успешно формализовать новые знания необходимо провести новые исследования, в том числе с использованием субъективных и теоретически обоснованных оценок. Метод QCA является перспективным методом анализа медицинских и эпидемиологических данных, который представляет собой альтернативу традиционным количественным методам и позволяет расширить арсенал алгоритмов и подходов к анализу данных.

Для использования данного метода необходимо понимать основы теории множеств и алгебры логики. Бесплатные курсы по этим темам на образовательном сервисе crocodata.io помогут быстро восстановить знания или заполнить пробелы:

Наука
7 млн интересуются