Биологическая ритмичность, включая циркадный и другие циклы, имеет фундаментальное значение для жизни на земле. Многочисленные свидетельства указывают на то, что нарушение биологических ритмов является фактором риска развития заболеваний человека, включая психические, метаболические и злокачественные заболевания.
Для оценки фазы, амплитуды и статистической значимости этих ритмов в данных временных рядов можно использовать несколько подходов, в которых каждая методология имеет сильные и слабые стороны в различных условиях. Текущая реализация этих алгоритмов в R медленная и сложная в использовании. Кроме того, не существует унифицированного инструментария для выполнения предварительной обработки, уменьшения размеров, определения периода и визуализации статистики колебаний, для чего требуются специальные знания и опыт. Для решения этих задач используется веб-приложение DiscoRhythm и сопутствующий пакет R/Bioconductor, а также для анализа ритмичности временных наборов биологических данных.
DiscoRhythm предоставляет единый интерфейс для выполнения четырех методов оценки ритма и эвристически подбирает подходящие подходы для анализируемых данных. Предоставляя интерактивные модули для обнаружения отклонений, анализа репликаций и профилирования периодичности, DiscoRhythm предлагает структуру для доступного анализа периодических наборов данных в веб-браузере или в R.
DiscoRhythm реализован в виде пакета на языке программирования R, версия 3.6+, с веб интерфейсом на базе платформы R Shiny, способные воспроизводить результаты транскриптомических, эпигеномных, метаболических, протеомных и других подобных наборов данных.
Рабочий процесс в DiscoRhythm начинается с матрицы временных данных, где вычисляются две метрики для фильтрации выбрасываемых образцов, после чего следует процедура выбора параметров, основанная на соотношении биологического сигнала и технического шума.
Доминирующие периоды определяются с помощью процедур оценки периода в рамках всего набора данных, и для вывода информации о наличии ритмов используются несколько методов определения ритмов для каждой характеристики.
Результаты веб-сессии могут быть отправлены по электронной почте или загружены после завершения в виде zip-файла, также содержащего данные R и код, необходимые для будущего воспроизведения.
Входной сигнал для веб-интерфейса представляет собой единую таблицу в формате CSV. Колонки содержат образцы, названные по времени их сбора, а строки содержат значения наблюдаемых признаков. Требуются также экспериментальные проектные спецификации в отношении технических реплик, единиц времени и основного интересующего периода.
Циркадный набор данных по экспрессии генов, смоделированный с использованием симфонии представлен для того, чтобы выделить имеющиеся особенности и продемонстрировать схему наименования образцов. В дополнение к табличному вводу графического интерфейса пакет DiscoRhythm R также принимает объекты SummarizedExperiment, обычно возвращаемые другими пакетами R в биопроводнике.
Обнаружение отклонений и отбор характеристик пробы оценивается с использованием двух широко используемых метрик для обнаружения отклонений. Первый показатель - это средняя корреляция между выборками, рассчитываемая как средняя парная корреляция между данной выборкой и всеми другими выборками, а второй показатель- это результат анализа основных компонентов выборки.
Для обеих метрик выборки, которые значительно отличаются от остальных, отмечаются как отклонения для удаления из дальнейшего анализа. Если имеются, то для определения соотношения сигнала и шума для каждого объекта можно использовать технические реплики, F-статистика биологических и технических вариаций.
Для дальнейшего анализа пользователь может выбрать только те характеристики, которые характеризуются высоким отношением сигнала и шума, определяемым либо размером эффекта, либо статистической значимостью. Технические реплики затем можно комбинировать, принимая среднее, медиану или выбирая одну случайным образом, чтобы предотвратить завышение размера выборки, обусловленное не независимыми измерениями.
Для определения периода доминирующего периода ритмичности можно использовать два подхода. Во-первых, степень соответствия может быть оценена для каждого периода с помощью косинорной модели для всех выбранных признаков, возвращая медианный коэффициент определения (R2) соответствия. В качестве альтернативы, глобальные ритмические модели могут быть исследованы с использованием баллов PCA. Если "круговое время" используется для отбора проб, DiscoRhythm ограничит время определения ритма p/k, где p - длительность цикла и k - целое положительное число.
Оценки характеристик ритма колебания могут быть обнаружены для каждого элемента с помощью заданного пользователем периода времени. Период должен быть выбран априорной гипотезой или определен процедурами.
Интерфейс предназначен для четырех широко используемых подходов к обнаружению колебаний Cosinor, ARSER, JTK Cycle и Lomb-Scargle. Каждый из них становится эвристически доступным, если входной набор данных удовлетворяет определенным критериям алгоритма, таким как: наличие отсутствующих значений, биологические реплики, неравномерная частота выборки или неинтервальные интервалы. Чтобы сделать DiscoRhythm пригодным для анализа в реальном времени и в омическом масштабе времени, были разработаны высокопроизводительные реализации каждого алгоритма с увеличением времени исполнения до 30 раз.
Каждый метод возвращает оценочные фазы, амплитуды и р-значения, как сырые, так и скорректированные для множественного тестирования. Эти характерные особенности ритма могут быть интерактивно визуализированы и загружены для дальнейшего изучения ритмичности, а обсуждения является общей темой для большинства биологических исследователей.
Количественный анализ является сложным и поэтому почти исключительно выполняется исследователями, специализирующимися в области статистики и вычислений.
Для демократизации области хронологии была разработана программа DiscoRhythm - набор стандартизированных аналитических процедур, которые стали доступными благодаря интерактивности, информативной визуализации и ключевым статистическим данным для характеристики ритмических моделей временных наборов данных. Этот новый инструмент позволит даже исследователям, не занимающимся вычислениями, получить представление о ритмичности биологических данных высокоэффективным образом.