Абстрактные эталонные тезисы малых вариантов из генома бутылочного консорциума (GIAB) для CEPH/HapMap генома NA12878 (HG001) широко используются для разработки, оптимизации и демонстрации эффективности методов секвенирования и биоинформатики.
В этом случае разрабатывается воспроизводимый "облачный" конвейер для интеграции множественных наборов данных секвенирования и формирования эталонных вызовов, что позволяет применять его для произвольных геномов человека.
Эти воспроизводимые методы используются для формирования высоко достоверных вызовов в отношении GRCh37 и GRCh38 для геномов HG001 и 4-х дополнительных широко согласованных геномов из проекта "Персонального генома", которые доступны в качестве эталонных образцов НИСТ. Широкое и открытое согласие этих новых геномов с небольшим количеством ограничений на доступность образцов и данных позволяет применять их в самых разнообразных областях.
Новые методы дают на 17% больше уверенности в надежности SNP, на 176% больше INDEL и на 12% больше регионов, чем ранее опубликованные вызовы.
Чтобы продемонстрировать, что эти вызовы могут быть использованы для точного бенчмаркинга, сравниваются другие высококачественные вызовы с данными (например, Illumina Platinum Genomes), и результат показывает, что большинство дискордантных вызовов являются ошибками в других вызовах. Также выделяются проблемы в интерпретации показателей производительности при бенчмаркинге на фоне несовершенных вызовов высокой достоверности.
Инструменты бенчмаркинга от "Глобального альянса по геномике и здоровью" могут быть использованы вместе с призывами для стратификации показателей эффективности по типам вариантов и контексту генома, а также для выяснения сильных и слабых сторон метода.
Поскольку секвенирование генома все чаще используется в клинической практике, высококачественный вариант и эталонный генотип требуют согласия небольшого числа геномов на открытое распространение, что является важной составляющей точности определения эталонных вариантов. Геном в бутылочном консорциуме (GIAB) был сформирован как открытый научный проект для авторитетной характеристики эталонных геномов путем интеграции различных технологий и методов биоинформатики.
Учеными уже был описан метод формирования высокоточного SNP, Indel и эталонного генотипа для пилотного генома GIAB - эталонного материала (RM) 8398 (который является образцом HG001 НИСТ из тех же клеточных линий, что и Coriell DNA NA12878).
Эти эталонные вызовы были использованы в рамках оптимизации и аналитической проверки клинической последовательности, сравнения новых технологий, и биоинформатики. В этой работе ученые опираются на предыдущие методы интеграции, чтобы обеспечить разработку высокоточных, воспроизводимых эталонных генотипов из любого генома с множественными наборами данных из различных методов секвенирования.
Сначала разрабатывается новая версия более полной и точной интегрированной SNP, небольшой INDEL, и гомозиготные ссылки призывает к HG001.
Поэтапные родословные наборы вызовов (из Illumina Platinum Genomes Project6) обеспечивают ортогональное подтверждение вариантов путем поэтапного подтверждения вариантов в HG001, ее 11 потомков и их отца, а затем проверяют, что варианты и гаплотипы унаследованы, как ожидается, от Менелианской сегрегации.
Далее сравниваются эти наборы, основанные на родословной, с наборами ученых, следуя передовой практике, установленной "Глобальным альянсом по геномике и сравнительному анализу здоровья", и вручную курируется подмножество различий между наборами, чтобы понять причины разногласий.
Данные методы применяются к четырем широко признанным геномам GIAB из проекта "Персонального генома" (PGP), Ашкеназимскому Еврейскому трио мать-отец-сын (AJ), чья ДНК находится в NIST RMs 8391 и 8392 и сыну китайского трио, чья ДНК является NIST RM 8393.
Используются обширные данные по этим геномам, созданным GIAB с использованием различных технологий. А также используются эти новые методы для формирования аналогичных вызовов с высокой степенью уверенности в отношении GRCh38. В дальнейшем эти методы могут быть использованы для характеристики родителей китайского трио, а также других геномов, характеризующихся множественностью технологий.
Широко охарактеризованные геномы от PGP имеют открытое, широкое согласие и широко доступные данные и клеточные линии, а также возможность повторного контакта для дополнительных типов образцов.
Они являются прочным ресурсом, уникальным образом подходящим для различных исследований и коммерческого применения.
В настоящее время существует целый ряд продуктов, использующих эти геномы, включая индуцированные плюрипотентные стволовые клетки (IPSCs), смеси клеточных линий, клеточные линии ДНК с синтетическими спикелями ДНК с мутациями, представляющими клинический интерес, формалин-фиксаторы парафиновых клеток (FFPE) и мимикулы ДНК опухолей.
Заключение
Вышеописанная работа над широко признанными и доступными образцами дополняет недавние работы по определению характеристик образцов с более ограниченной доступностью.
Эти более ограниченные образцы были характерны для вариантов и регионов, не характеризующихся высокой степенью уверенности GIAB в данной рукописи. Например, анализ родословной генома платины, анализ HuRef с использованием Sanger-секвенирования, интеграция нескольких методов вызова SV на HS1011, и синтетических диплоидов, использующих длинночитаемое секвенирование малораспространенных гидроитаформных кротов.