Найти в Дзене
Програмпроф

Оценка линеаризации Тейлора в статистических программах

Оценка линеаризации Тейлора (TSL) представляет собой проектную методику оценки отклонений, которая широко применяется в различных статистических программных процедурах и часто используется в этих процедурах в качестве стандартной процедуры оценки отклонений при применении проектных подходов к сложным выборкам. Основная идея TSL заключается в использовании расширения ряда Тейлора для приближения нелинейного оценщика (например, среднего соотношения, параметра регрессии, коэффициента корреляции) с использованием линейной функции оцениваемых выборочных итоговых значений. После того, как нелинейный оценщик "линеаризован", для оценки дисперсии линейной функции итоговых показателей выборки могут быть применены объективные, конструктивные формулы оценки дисперсии, отражающие сложные элементы выборки (стратификация, гнездовая выборка, взвешивание). Дисперсия линеаризованного оценщика оценивается внутри каждого слоя (если применимо), и дисперсии слоя объединяются для получения общей дисперсии

Оценка линеаризации Тейлора (TSL) представляет собой проектную методику оценки отклонений, которая широко применяется в различных статистических программных процедурах и часто используется в этих процедурах в качестве стандартной процедуры оценки отклонений при применении проектных подходов к сложным выборкам.

Основная идея TSL заключается в использовании расширения ряда Тейлора для приближения нелинейного оценщика (например, среднего соотношения, параметра регрессии, коэффициента корреляции) с использованием линейной функции оцениваемых выборочных итоговых значений. После того, как нелинейный оценщик "линеаризован", для оценки дисперсии линейной функции итоговых показателей выборки могут быть применены объективные, конструктивные формулы оценки дисперсии, отражающие сложные элементы выборки (стратификация, гнездовая выборка, взвешивание).

 https://pixabay.com/ru/illustrations/онлайн-web-статистика-данных-3539412/
https://pixabay.com/ru/illustrations/онлайн-web-статистика-данных-3539412/

Дисперсия линеаризованного оценщика оценивается внутри каждого слоя (если применимо), и дисперсии слоя объединяются для получения общей дисперсии оценщика. Вольтер описал технические подробности по TSL.

Существуют два важных вопроса, которые аналитикам необходимо тщательно учитывать при использовании TSL для проектной оценки дисперсии:
анализ субпопуляции;
"однотонные" кластеры выборки.

Во-первых, при анализе субпопуляций в сложных схемах построения выборки часто используются гнезда элементов совокупности в пределах групп выборки по соображениям экономической эффективности. Кластеры, отобранные на первом этапе случайной выборки, часто называют первичными единицами выборки (ПЕВ) и это могут быть географические районы в вероятностных выборках, естественные группы элементов совокупности (например, колледжи) или отдельные элементы выборки, если не используется кластерная выборка. При анализе подгрупп (например, пожилых мужчин) и использовании TSL для оценки дисперсии аналитики должны четко сформулировать бинарные переменные, указывающие, какие обследуемые случаи попадают в подгруппу интересов, и использовать эти показатели для оценки дисперсии (что часто облегчается вариантами "субпопуляции" в различных программных процедурах).

Во-вторых, учитывая "одноэлементный" кластерный вопрос о выборке, можно также с уверенностью выбрать некоторые ПЕВ, что означает (в расчетных условиях), что они будут включены во все возможные гипотетические выборки, которые могут быть отобраны; то есть, у них есть вероятность включения одного из них. При использовании TSL для оценки дисперсии необходимо наличие не менее двух блоков питания в слое выборки для оценки вклада этого слоя в общую дисперсию выборки, и уверенность в том, что блоки питания часто определяют свой собственный слой.

Методы репликации представляют собой второй непараметрический подход к оценке дисперсии взвешенной оценки, основанный на проектировании. Как правило, эти методы включают разделение всей выборки на различные подвыборки, расчет оценки интересующего параметра в рамках каждой подвыборки и расчет вариации между подвыборными оценками для оценки дисперсии полной выборочной оценки.

Эти методы могут быть реализованы в различных формах, включая метод случайных групп (RGM), репликацию Jackknife (JRR), сбалансированную репликацию (BRR), установку бутстраппинга и различные модификации этих методов. Ключевым преимуществом этих методов репликации является то, что они не требуют линеаризации нелинейных оценок и, как правило, могут применяться ко многим различным формам оценок.

Это требует от пользователя данных использования программного обеспечения для оценки дисперсии, которое поддерживает конкретный тип схемы взвешивания репликации, используемой организацией обследования, и почти все основные пакеты статистических программ с процедурами оценки дисперсии для сложных выборок в настоящее время позволяют использовать эти "весовые коэффициенты репликации" (например, SAS, Stata, R).

Итак, каким образом статистик обследования выбирает процедуру оценки отклонений, которая будет использоваться при использовании конкретного программного обеспечения для описательного анализа на основе проекта?

Многочисленные исследования сравнивали эффективность этих альтернативных методов оценки дисперсии при различных сложных схемах построения выборки. Они неизменно демонстрируют, что для многих распространенных видов оценок обследования (например, средние, пропорции, коэффициенты регрессии) все методы работают хорошо, и различия между ними незначительны. Исключение составляют небольшие выборки, где линеаризация может быть нестабильной и работать хуже, чем методы репликации, и квантили, где необходимы альтернативные формы линеаризации, учитывая, что квантили обычно не могут быть аппроксимированы с помощью гладких функций суммарных или средних значений численности.