Проблема выявления пространственно-временных кластеров возникает в различных областях применения, включая наблюдение за заболеваниями и визуализацию мозга. В целом пространственно-временные методы можно разделить на три класса: методы пространственного моделирования, такие как "картирование болезни", где наблюдаемые значения пространственно сглаживаются, чтобы сделать вывод о распределении значений во времени (например, Clayton and Kaldor, 1987; Besag et al, 1991); тесты на общую тенденцию к кластеризации данных (например, Нокс, 1964; Мантел, 1967); и тесты, пытающиеся определить местоположение кластеров (например, Куллдорф и др., 1998; Кулл-Дорф, 2001; Куллдорф и др., 2004). Мы сосредоточимся на последнем кластере методов, поскольку это единственные методы, которые позволяют нам ответить на вопрос, существуют ли какие-либо значительные кластеры, и если да, то определить эти кластеры.
Предположим, что мы имеем набор данных, собранных с набором дискретных временных шагов k = 1...kbase, и с набором дискретных пространственных местоположений SJ. Для каждого St в каждый момент времени шаг &, нам дается подсчет ср и (опционально) базовый b\. Например, в эпидемиологии подсчет может производиться по количеству случаев заболевания в данном пространственном регионе за определенный промежуток времени или по некоторым соответствующим наблюдаемым показателям, таким как число посещений отделения неотложной помощи или продажи лекарственных средств без рецепта. Исходные данные могут быть даны (на основе результатов контрольной группы или населения, подверженного риску, на основе данных переписи) или сделаны на основе временных рядов подсчета голосов. Во всех случаях мы предполагаем, что подсчеты cf генерируются неким распределением со средним пропорциональным b\<j\, где qt - это скорость (или ожидаемое соотношение счета к базовой линии). Таким образом, наша цель состоит в том, чтобы выяснить, существует ли какой-либо регион (набор мест Sj) и временной интервал (k = km\n ... kmax), для которого эти показатели значительно выше ожидаемых; в эпидемиологии это может соответствовать вспышке заболевания. В этих весьма общих рамках мы можем задать ряд вопросов:
- Какие пространственные регионы нужно искать? Обычно мы ищем по набору всех областей заданной формы и переменного размера. Для простоты предположим, что пространственные положения Sj агрегированы в J-мерную сетку, и будем искать по множеству всех d-мерных гипер-прямоугольных областей сетки.
- Какие временные интервалы поиска? Для перспективного анализа мы ищем только по временным интервалам, заканчивающимся в настоящее время, в то время как для ретроспективного анализа мы ищем по всем интервалам, включая интервалы, заканчивающиеся до настоящего времени.
- Какие распределения предполагается использовать? Для простоты предположим, что c* генерируются независимо-постоянно из распределений Пуассона со средним значением q^bf-. Мы могли бы также принять во внимание и другие факторы, такие как внепуассонная вариация (чрезмерная дисперсия) и пространственная корреляция; мы сделаем это в некоторой степени в рассмотренных ниже методах CATS и RATS, поскольку они осуществляют агрегирование подсчетов на уровне ячеек и областей сетки соответственно. В рассматриваемом ниже методе BATS, который рассматривает отдельные временные ряды для каждого здания, мы не учитываем корреляцию. Мы также можем использовать Нормальные распределения вместо Пуассона для моделирования распределений с дисперсией, отличной от средней и пространственно меняющейся.
- Хотим ли мы вывести исходные линии из временного ряда предыдущих подсчетов, или же они приведены? На данный момент мы предполагаем, что исходные данные приведены; мы обсудим методы вывода исходных данных из предыдущих подсчетов в Разделе 3.
В любом случае, значение пространственно-временной статистики Dmax принимается равным максимуму по всем пространственным регионам S C G D(S), где D(S) - максимальный D^^S) для всех временных интервалов k = kmin...kmax. Для ретроспективного анализа у нас есть 1 кміп <кмін <кмакс <кбаза; для проспективного анализа - 1 кмін <кмін <кмакс = кбаза.
Теперь, чтобы решить, какую статистику использовать Dkk™(S), мы должны сначала решить, какие регионы мы ищем. В частности
Хотим ли мы обнаружить регионы, где показатели c\lbki значительно выше, чем некоторые ранее ожидавшиеся, или такие, что они значительно выше внутри региона, чем снаружи? Мы называем прежние тесты "глобально чувствительными", поскольку они чувствительны к глобальному росту ставок. Что касается последнего, то мы должны решить, следует ли корректировать общий глобальный курс ("глобально адаптивные" тесты) или корректировать его отдельно для каждого дня ("ежедневные адаптивные" тесты).
Будем ли мы ожидать, что ставка будет постоянной в течение всего времени существования кластера, или же она будет возрастать в течение всего времени существования кластера? В первом случае у нас есть тест на стойкость кластеров, а во втором - тест на возникновение кластеров. Мы также можем сделать несколько других предположений, таких как увеличение скорости в соответствии с некоторым параметризованным распределением (например, линейное увеличение, экспоненциальное увеличение).
Основываясь на наших ответах на эти два вопроса, мы можем определить ряд различных статистических данных, как это определено в разделе 2.