В данной статье будут описаны методы, используемые для интеграции нескольких коротких и связанных типов данных чтения для формирования высоконадежных SNV, малых инделов и гомозиготных эталонных генотипов для этих геномов.
Ученые систематически оценивают полученные генотипы, чтобы показать, что они могут быть использованы для идентификации ложноположительных и ложноотрицательных сигналов с уверенностью.
Их цель состоит в разработке воспроизводимых, надежных и гибких методов для получения высокоточных вариантов и вызовов генотипов (включая гомозиготные эталонные регионы), которые при сравнении любого метода секвенирования с высокоточными вызовами, требующими строгого соответствия аллелей и генотипов, большинством вызовов секвенирования в высокоточных регионах (например, FPs и FN) должны быть связаны с ошибками.
Разрабатываются модульные, основанные на облачных технологиях методы интеграции данных, чтобы создать воспроизводимый, надежный и гибкий конвейер, позволяющий интегрировать различные типы данных для каждого генома.
Ученые производят высокоточные конкурсы вариантов и регионов, объединяя методы и технологии с различными преимуществами и ограничениями и используя доказательства потенциальной предвзятости для арбитражного разбирательства, когда методы дают разные результаты.
Наконец, они оценивают полезность высоконадежных вариантов и регионов, сравнивая высококачественные наборы вызовов с высоконадежными вызовами и вручную курируя дискордантные вызовы, чтобы убедиться, что большинство из них являются ошибками в других высококачественных аппаратах.
Новые вызовы с высокой степенью уверенности являются более полными и точными, они показывают эволюцию вызовов с высокой степенью уверенности GIAB/NIST с момента предыдущей публикации по этой теме.
Доля не-N-оснований в охваченных стандартом GRCh37 увеличилась с 77,4% до 90,8%, а количество высоконадежных SNPs и инделей увеличилось на 17% и 176%, соответственно. Доля охваченных кодированием регионов GRCh37 RefSeq увеличилась с 73,9% до 89,9%.
Рост уверенности в регионах и SNP является результатом менее консервативного подхода, а также нового подхода, который исключает различные типы сложных регионов для различных наборов входных вызовов в зависимости от длины считывания, профилей ошибок и методов анализа. Больший прирост количества отпечатков связан с новыми наборами входных вызовов, которые имеют более точные и чувствительные отпечатки, а также с более новыми методами интеграции, которые учитывают, что некоторые наборы входных вызовов не чувствительны к большим отпечаткам.
Незначительное снижение количества вызовов с высокой степенью уверенности с версии 3.3.1 до версии 3.3.2 явилось результатом исправления проблемы с тем, как рассчитывались вызываемые регионы из GATK gvcf.
Меньшее количество высоконадежных баз и вариантов в GRCh38, по-видимому, объясняется в основном проблемой в файле сегментного самоцепи, что приводит к ошибочному исключению некоторых крупных регионов из списка регионов с высокой степенью уверенности. Исследователи не ожидают, что это повлияет на отзыв и точность, но планируют исправить это в последующих версиях.
Высокая Согласованность с Illumina Platinum Genomes.
Ей присуще растущее количество согласованных и уменьшающееся количество несогласованных вызовов по нескольким версиям аппарата HG001 по сравнению с аппаратом Illumina Platinum Genomes 2016-v1.0 (PG).
PG представляет собой ценный ориентир для наших вызовов, поскольку в нем используется поэтапный племенной анализ для арбитража между различными наборами вызовов вариантов vff. Это обеспечивает ортогональное подтверждение наших вызовов, поскольку поэтапный анализ родословной PG может выявить отклонения, отличные от данного метода.
PG содержит большее количество высоконадежных вариантов звонков, даже по сравнению с новым вариантом 3.3.2 звонков для HG001.
Однако при сравнении версии 3.3.2 с версией PG в обоих файлах выяснилось, что большинство различий было связано с тем, что версия 3.3.2 была правильной и PG имел частичный сложный или сложный гетерозиготный вызов, или что стационарный файл PG частично перекрывался с настоящим удалением, которое называлось корректно в 3.3.2.
Для сокращения количества этих проблемных участков был сокращен каждый из регионов с высокой степенью уверенности PG на 50bp с каждой стороны, что аналогично тому, как мы удаляем по 50bp с каждой стороны неопределенных вариантов. Поскольку PG имеет гораздо больше неопределенных вариантов, сокращение регионов с высоким доверием к PG на 50bp сокращает количество вариантов в основе PG на 32%, но это также устраняет 93% различий между v3.3.2 и PG в GRCh37, так что 61 PG только и 47 звонков только в V3.3.2 остаются в обоих файлах основы.
После ручной оценки оставшихся 108 различий между вариантом 3.3.2 и PG в GRCh37, версия 3.3.2 содержит 5 четких FN, 1 четкое FP, 2 неясных FN и 6 неясных потенциальных FP в регионах повышенной уверенности NIST.
Заключение
На основе 3529641 вариантов, согласующихся между NIST и PG, будет около 2 FP и 2 FN на миллион истинных вариантов.
Поскольку они проводятся только в регионах с высоким уровнем достоверности ГП, эти подсчеты весьма вероятно ниже, чем общие подсчеты ошибок в версии 3.3.2, которые трудно оценить.
Кроме того, оценки коэффициента ошибок могут быть смещены, поскольку были исправлены проблемы в предыдущих версиях интеграции на основе ошибок, обнаруженных при ручной проверке различий между данными вызовами и PG (в основном в хромосомах 1 и 20).
По этим причинам истинная частота ошибок при текущих вызовах, скорее всего, будет выше, чем 2 РП и 2 РП на миллион реальных вариантов.