Анализ временных данных.
Главным образом вопрос о том, как правильно анализировать данные при наличии нескольких временных измерений для нескольких людей, а также вопрос одновременного моделирования нескольких слоев временных эффектов, таких как сочетание долгосрочного нелинейного увеличения, сезонных эффектов и еженедельных последствия.
По мере того, как область медицинских исследований стареет, сбор данных также становится более сложным.
Не все может быть проверено в рандомизированном контролируемом исследовании, поэтому для установления причинно-следственных связей планы исследований в настоящее время имеют тенденцию приводить к все более запутанным данным.
В рамках этой части методологических исследований происходит многое, поскольку многие статистические модели, необходимые для анализа таких данных, либо слишком просты, либо просто отсутствуют.
Это прекрасное время для биостатистика.
Обзор характера данных сегодня в области биостатистики
Типы проблем чрезвычайно разнообразны, как и данные, с которыми можно столкнуться:
лабораторные исследования с шестью мышами, небольшие рандомизированные клинические испытания с участием 50 человек, разделенных на одну из двух групп, большие наблюдательные продольные исследования потенциальных рисков для здоровья с десятками временных измерений.
Баллы для каждого из тысяч людей, исследования реестра с миллионами людей, измеренных по сотням переменных, анализ радиологических изображений раковых клеток в 2- и 3-хмерном геометрическом пространстве, данные геномики в 10000 измерений.
Таким образом, сбор данных часто очень специфичен.
А также часто очень много времени.
Сбор данных может быть настолько сложным, что само по себе «как» является областью исследований.
К примеру:
в настоящее время у фонда воздушной скорой помощи в расширении знаний в области доврачебной медицинской помощи - сбор данных является основной проблемой.
При посадке вертолета в качестве первого на месте после драматической аварии ваше первое действие не состоит в том, чтобы записать различные возможные мешающие факторы в стандартизированной форме или измерить ряд базовых значений для различных биомаркеров в кровь больного.
Однако если вы начнете измерять эти показатели после прибытия пациента в больницу, это означает, что у вас нет информации о процессе, который прошел пациент от первого контакта до стационарного лечения.
Итак, как вы можете узнать, какие действия, которые вы предприняли по пути на самом деле помогли?
Сотрудничество с различными дисциплинами - инженерами, молекулярными биологами и так далее - необходимо для того, чтобы выяснить, что измерять и как измерять, желательно часто, возможно, даже непрерывно, в режиме реального времени.
Это значительно увеличило бы возможности выяснения того, как организм реагирует на различные вмешательства.
Мы знаем, что время имеет существенное значение, но как именно?
Проблемы или опасности, в частности, для интеллектуального анализа данных в целом для исследователей.
Шанс - это забавная вещь.
Случайности гораздо больше, чем нам хотелось бы признать.
Таким образом, я принадлежу к группе людей, которые склонны поднимать предупреждающий палец, когда поднимается тема интеллектуального анализа данных.
Статистический анализ не связан с «поиском закономерностей в данных».
В данных всегда будут закономерности.
Маленькие узоры, большие узоры, простые узоры, замысловатые узоры.
И чем ближе вы смотрите, тем больше шаблонов вы найдете.
Таким образом, вопрос заключается не в том, найдете ли вы шаблоны в ваших данных, если вы начнете копать, а в том, отражают ли найденные шаблоны какую-то реальную структуру в данных или просто случайно.
Статистический анализ - это акт отделения реальных моделей от случайных моделей.
Истинная ассоциация от простого случая.
И, самое главное, статистика количественно определяет степень уверенности, с которой вы должны доверять своим результатам.
Или нет.
«Парадокс изобилия»
Парадокс в том, что в больших наборах данных вам суждено найти больше шаблонов, более сложных шаблонов, просто случайно.
В то же время мы больше доверяем шаблонам, обнаруженным в больших наборах данных, просто потому, что у нас большие объемы данных.
Вам не нужно много классов статистики и методов научных исследований, прежде чем вы поймете, что копаться в данных может быть даже более вредным, чем ничего не делать.
Сегодня большой проблемой является не отсутствие данных, а отсутствие хорошего анализа.