Одномолекулярные длинночитаемые наборы данных секвенирования были созданы для трио сын-отец-мать китайского происхождения Хань, входящего в портфель консорциума GIAB (Genome in a Bottle).
Набор данных был создан с использованием Тихоокеанской системы последовательностей бионаучных исследований.
Сын и каждый родитель были отсортированы таким образом, чтобы средний охват составил 60 и 30, соответственно, с N50 субчитаниями длиной от 16 до 18 Кб. Исходные значения необработанных считываний и считываний, согласованных с GRCh37 и GRCh38, доступны на сайте NCBI GIAB. Выровненные считанные данные GRCh38 архивируются в NCBI SRA (SRX4739017, SRX4739121 и SRX4739122). Этот набор данных доступен для всех, кто занимается разработкой и оценкой методов биоинформатики, рассчитанных на длительное чтение.
История вопроса и резюме
Genom In a Bottle (GIAB) - консорциум при Национальном институте стандартов и технологий (НИСТ), основной задачей которого является разработка и характеристика эталонных материалов генома человека.
В консорциум входят представители правительства, промышленности и научных кругов. В настоящее время портфель GIAB включает семь геномов: пилотный геном NA12878 и два трио сын-отец-мать (один трио Ашкеназийского Еврейского происхождения и другой Ханьского происхождения).
Триообразцы были отобраны в рамках проекта "Личный геном" с целью увеличения разнообразия эталонных образцов. Геном ГИАБ широко секвенировался на ряде различных платформ). Наборы данных использовались для создания наборов контрольных вариантов вызовов для бенчмаркинга и валидации небольших методов вызова вариантов. Эталонные вызовы основаны главным образом на короткочитаемых данных и охватывают приблизительно 90% эталонного генома человека.
Сложно охарактеризовать ряд важных с медицинской точки зрения генов с помощью короткочитаемых данных секвенирования.
Поэтому консорциум и его заинтересованные стороны, включая разработчиков технологий и биоинформатики, клинические лаборатории и регулирующие органы, заинтересованы в распространении эталона на более сложные варианты и регионы, использующие технологии секвенирования с длинным считыванием.
Стремясь распространить этот эталон на более сложные варианты и регионы, для Ханьского трио Китая с использованием системы PacBio Sequel System (Pacific Biosciences, Menlo Park CA, USA) был создан высоконадежный набор данных длинночитанной последовательности. В системе Sequel System используется секвенирование в режиме реального времени (SMRT) одной молекулой с флуоресцентно мечеными нуклеотидами. Помимо того, что эта база данных будет использоваться для распространения набора контрольных показателей на более сложные варианты и регионы, она будет использоваться для совершенствования поэтапного подхода к вариантам и создания сборок генома.
Этот набор данных может также использоваться любым человеком для разработки и оценки методов биоинформатики, рассчитанных на длительное чтение.
Для китайского набора данных GIAB Han PacBio Sequel от GIAB, сын был секвенирован до 60X покрытия и родители до 30X покрытия с подпрочитанным N50 от 16-18 Кб. Необработанные показания и считывания, согласованные с GRCh37 и GRCh38, доступны на сайте NCBI GIAB. Выровненные считанные данные GRCh38 архивируются в архиве последовательного считывания NCBI (SRA).
Методы
Экспериментальная конструкция
На платформе секвенирования PacBio Sequel были секвенированы образцы китайского трио Han GIAB.
Геномная ДНК использовалась для подготовки 14 библиотек секвенирования: 6 для сына и 4 для матери и отца. Для создания набора данных использовались 79 последовательных ячеек SMRT, из которых 46 ячеек SMRT - для сына, 17 - для отца и 16 - для матери. Эти субъекты являются частью проекта "Личный геном" и дали информированное согласие на общедоступность всех данных секвенирования генома и перераспределение образцов. Субъекты одобрены Coriell и NIH/NIGMS IRBs для "публичного размещения генетической информации личного характера (PIGI)". Исследование было одобрено Управлением по защите прав человека НИСТ и Кориэлем.
Подготовка образцов
NIST RM8393 использовался для библиотек секвенирования HG005, а геномная ДНК для HG006 и HG007 была получена из Coriell (NA24694 и NA24695, соответственно).
Измерение концентрации геномной ДНК проводилось с помощью фториметрической системы Qubit с помощью высокочувствительного набора для обнаружения двухцепочечной ДНК (Thermo Fisher, часть №Q32854). Распределение размеров фрагментов оценивали с помощью биоанализатора Agilent 2100 с набором ДНК 12000 (Agilent, часть 5067-1508).
Высокомолекулярная геномная ДНК весом 20 мкг была срезана инструментом Megaruptor (Diagenode, Liege, Belgium) до 40 кб, а срезанная ДНК использовалась в качестве входа в подготовку библиотеки SMRTbell. Библиотеки SMRTbell были подготовлены с использованием Тихоокеанского набора 1.0 - SPv3 (Pacific Biosciences, часть 101-357-000).
После завершения создания библиотек их размер выбирался из 20-50 кб с помощью прибора Blue Pippin (Sage Science, Beverly MA, USA), чтобы увеличить длину вставок до максимально возможной длины.
Для связывания полимеразы с шаблонами SMRTbell использовался связующий комплект полимеразы v2.0 (часть 101-862-200). Для удаления избытка полимеразы и повышения эффективности загрузки комплекс связующих перед загрузкой очищали с помощью комплекта для очистки колонн (Pacific Biosciences, часть 100-184-100).
Заключение
Такая идентификация не подразумевает рекомендации или одобрения со стороны Национального института стандартов и технологий, а также не подразумевает, что оборудование, инструменты или материалы, идентифицированные для этой цели, являются лучшими из имеющихся в наличии.