Скрытые модели Маркова, вероятно, относятся к числу центральных методов обработки сигналов.
В биоинформатике они широко используются для выявления вариаций числа копий, которые, как было признано, играют важную роль в прогрессии рака и нервно-психических расстройств.
В зависимости от области применения и экспериментальной платформы число состояний может быть выбрано от 3 для простых прибылей и убытков до примерно 10 для сложных геномных изменений в некоторых видах рака. Поскольку CNV может нарушать или дублировать гены и регуляторные элементы, такие дефекты, как потеря функции, химерные белки, а также дозировка генов, могут привести к изменению фенотипа.
В качестве кандидатов на генетические причины, лежащие в основе фенотипических адаптаций, могут использоваться варианты с копировальным числом, выраженным в различных популяциях.
Тестовые проблемы в сегментации данных РГС в аппарате ЧММ связаны с двумя аспектами:
-во-первых, хотя преимущества байесовской сегментации перед частотными подходами уже были отмечены ранее, вывод является вычислительно требовательным для данных масштаба WGS, в частности, байесовские методы, основанные на марковских приближениях Сети Монте-Карло, невозможны на стандартных компьютерах с точки зрения требований к памяти, характеристик скорости и конвергенции.
-во-вторых, HMMM предполагает кусочно-постоянные данные с вариациями условно независимыми при истинной сегментации, что означает, что любое долгосрочное смещение нарушает допущения модели.
К сожалению, это имеет место в случае использования для оценки CNV глубинных данных, полученных в ходе экспериментов РГС. Количество чтений, сопоставленных с любой данной позицией, смешивается со смещением амплифкации из-за дальности праймера и содержания ГХ, а также смещением амплификатора как вычислительная погрешность, возникшая во время чтения карт. Это может привести к множественным сдвигам в сегментном средстве, а также к нелинейным дефектам в сигнале, которые будут более точно смоделированы в виде кусочков полиномов более высокого порядка.
Расчетное устранение таких несовершенств, например, методами регрессии, такими как лесс, нетривиально, так как требует разделения трех сигналов: добавочного экспериментального шума, плавного сдвига на большие расстояния, а также последовательности истинных средств.
Другими словами, трудно дифференцировать сдвиги средних сигналов, обусловленные смещением, и сдвиги, представляющие собой фактические изменения CN.
Что касается древних вычислений, то недавно было показано, что байесовский вывод о скрытой последовательности состояний с использованием выборки Форвард-Бэкворд-Гиббс может быть сделан возможным для больших наборов данных с использованием схемы динамического сжатия, основанной на вейвлет-регрессии Хаара. При таком подходе данные представляются пробоотборнику Гиббса в сжатом виде, и пробоотборник динамически адаптирует сжатие в соответствии с уровнем шума, который он получает на каждом этапе отбора проб. Это привело к резкому улучшению скоростного и конвергентного поведения FBG.
Концептуально подход позволяет программе увеличить области-кандидаты на CNV и сконцентрировать там свои вычислительные эфорты, игнорируя при этом длинные диплоидные сегменты. Несмотря на решение проблемы конвергенции и повышение общей скорости, при анализе данных РГС по-прежнему мешает использование памяти. Здесь мы представляем новую алгоритмическую основу для реализации подхода динамического вейвлет-сжатия для HMM-выводов с использованием FBG. Мы предоставляем новые структуры данных, позволяющие эффективно хранить и обновлять значения предельных состояний для структур блоков сжатия, а также оперативно запрашивать старые статистические данные на различных уровнях разрешения вейвлет-излучения.
Выведен линейный алгоритм преобразования времени на месте для преобразования данных, необходимых для его построения, на основе схемы подъема.
Что касается предоставления ФБР данных, которые в разумной степени соответствуют его модели, то мы отметили, что последовательность выборки и контроля на основе мультиплексирования, зачастую по причинам затрат, является общепринятой практикой.
Использование дифференциальных отсчетов при одном и том же мультиплексном цикле секвенирования, например, устраняет любое смещение охвата добавками. Это не только снижает вероятность ложных вызовов CNV из-за систематических сдвигов в данных, но и явно снижает условную зависимость наблюдаемых вариаций, учитывая истинные сегментационные метки. Поэтому использование таких данных является более подходящим вкладом в методы HMMM.
Помимо этих общих соображений, вейвлет-сжатие благоприятно влияет на такие данные: регрессия зависит от свойства вейвлетов, называемого полиномическим подавлением. Если в основе сигнала лежит полином до определенной константы, то волны ортогональны к нему и затем удаляются во время регрессии. Это обеспечивает разделение сигнала и шума.
Однако полиномы более высокого порядка из-за большой экспериментальной погрешности могут иметь дополнительные нарушения в регрессии, что приведет к снижению коэффициента сжатия, увеличению требований к памяти и, как следствие, к более длительному времени работы FBG.