Статистика предоставляет спектр концепций и методов для изучения ситуаций, характеризующихся необъяснимой изменчивостью. Такие соображения касаются широкого круга областей - физики частиц и астрофизики, генетики, социологии и экономики; и смежных областей применения, таких как машиностроение, сельское хозяйство и медицина. На применение влияют проникновения статистического мышления в предмет исследования и, следовательно, конкретные области и отдельные исследователи.
Задача статистиков-теоретиков состоит как в том, чтобы быть готовыми к решению проблем, связанных с конкретными видами применения, так и в то же время разрабатывать методы и концепции, которые будут применяться.
Чтобы проиллюстрировать широту статистических концепций, полезно рассмотреть следующую последовательность, которая на практике часто встречается в другом порядке:
- Разъяснение вопросов исследования в сложной ситуации.
- Спецификация контекста исследования, например, выбор лиц для участия в клиническом исследовании.
- Вопросы метрологии: как лучше измерять характеристики в рассматриваемом контексте и насколько безопасен процесс измерения.
Выделяют несколько аспектов плана исследования. Целью считается достижение разумного уровня точности, отсутствия систематических ошибок, экономии и широты толкования, иногда путем ответа на взаимосвязанные вопросы в рамках одного исследования.
- сбор данных, включая мониторинг качества;
- анализ данных на этапах сбора информации, начиная с описания и далее;
- резюме выводов;
- интерпретация: что было обнаружено, какие новые вопросы подняты.
Большие объемы данных существуют уже давно, но возможность анализа таких данных не на выборочной основе является новой.
1. Актуальность данных .
Ключевые вопросы касаются актуальности данных, если они собираются в случайном порядке. Тогда возникают опасения по поводу качества. Некоторые большие данные имеют высокое качество. В других ситуациях небольшой объем плохих данных может вводить в заблуждение. Методы оценки точности могут указывать на узкий доверительный интервал выводов из больших данных, и эта узкая область может дать слишком оптимистичный взгляд на достигаемую точность.
2. Идеи.
Другие новые темы статистических концепций связаны с идеями, которые связаны с информатикой. Они часто направлены на эмпирическое прогнозирование на основе шумных данных, а не на зондирование глубинной интерпретации данных или на решение вопросов, связанных с планировкой исследования или характером процесса измерения.
3. Опыт.
Теория и практика статистики компьютерного возраста - это случай нового вина в старых бутылках: фундаментальные принципы статистического мышления не изменились, но реализация изменилась. Сбор данных для современного ученого может осуществляться в "семилигированных" ботинках благодаря впечатляющим достижениям в оборудовании - заметные примеры включают микролучи и сенсоры ДНК в микробиологии и роботизированную телеметрию для астрономии. Наряду с большими данными возникают большие вопросы; часто одновременно ставятся тысячи проблем проверки и оценки гипотез, требующие тщательного статистического обсуждения.
Например, исследование, проведенное в педиатрической больнице Гватемалы, охватило около 1800 детей в течение 12-летнего периода, начавшегося в 2002 году. Десять процентов детей были брошены своими семьями во время их пребывания в стране. Цель исследования заключалась в выявлении причин оставления детей без попечения родителей. Ключевой переменной в ответе было время, количество дней от поступления до отказа. Было измерено более 40 возможных объясняющих факторов, из которых основополагающее значение имели: расстояние, на котором ребенок находился от больницы; дата поступления ребенка, измеренная в днях с начала исследования; возраст и пол ребенка; неизлечимые болезни.
На фундаментальном уровне статистическая теория касается извлечения уроков из опыта, который поступает в громкой и частично противоречивой форме. Современное оборудование помогает ученым создавать широкие эмпирические сети. Это приводит к увеличению нагрузки на статистическую часть научного процесса, связанную с обучением. Статистики реагируют на это гибкими и емкими методами анализа. На измерение влияют мощи современных вычислений, расширения классических теорий, которые переносят бремя математического анализа на вычислительные алгоритмы, но требуют тщательного обсуждения для формулирования принципов.
Признание косвенных доказательств считается отличительной чертой современной статистической практики. Частотные методы (алгоритмы регрессии) объединяют возможные релевантные случаи для одного представляющего особый интерес случая. Избежание трудностей, связанных с косвенными данными, мотивирует проводимые статистические исследования. В основе статистики лежат вопросы о неопределенности и изменчивости, обладающие постоянной ценностью и проблемой, которая является концептуальной, математической и вычислительной.