254 подписчика

От FASTQ до генеалогических сервисов: полная инструкция по работе с WGS Extract

29 мая29 мая

9 мин

Если вы сдали тест полногеномного секвенирования (WGS) и получили исходные данные, то наверняка задались вопросом: что с ними делать дальше? Большинство генеалогических сервисов - FTDNA, GEDmatch, YFull и другие - не принимают сырые форматы напрямую, и здесь на помощь приходит WGS Extract - бесплатный инструмент который превращает ваши данные в файлы пригодные для загрузки в любой сервис. В зависимости от провайдера исходные данные могут отличаться. tellmeGen выдаёт файлы в формате FASTQ. Dante Labs предоставляет как FASTQ, так и уже готовый BAM файл выровненный на референс hs37d5 - в этом случае шаг выравнивания можно пропустить и начать работу сразу с загрузки BAM в программу. В этой статье я подробно разберу весь процесс работы с WGS Extract: от первого запуска и выравнивания до получения готовых файлов. WGS Extract - бесплатная десктопная программа для обработки данных полногеномного секвенирования. Она берёт на себя всю биоинформатическую работу: скачивает референсные геномы, запу

Оглавление

Что такое WGS Extract и как его установить
Системные требования
Скачивание и установка

Если вы сдали тест полногеномного секвенирования (WGS) и получили исходные данные, то наверняка задались вопросом: что с ними делать дальше? Большинство генеалогических сервисов - FTDNA, GEDmatch, YFull и другие - не принимают сырые форматы напрямую, и здесь на помощь приходит WGS Extract - бесплатный инструмент который превращает ваши данные в файлы пригодные для загрузки в любой сервис.

В зависимости от провайдера исходные данные могут отличаться. tellmeGen выдаёт файлы в формате FASTQ. Dante Labs предоставляет как FASTQ, так и уже готовый BAM файл выровненный на референс hs37d5 - в этом случае шаг выравнивания можно пропустить и начать работу сразу с загрузки BAM в программу.

В этой статье я подробно разберу весь процесс работы с WGS Extract: от первого запуска и выравнивания до получения готовых файлов.

Что такое WGS Extract и как его установить

WGS Extract - бесплатная десктопная программа для обработки данных полногеномного секвенирования. Она берёт на себя всю биоинформатическую работу: скачивает референсные геномы, запускает выравниватель BWA-MEM, индексирует файлы - и всё это через простой графический интерфейс без необходимости работать в командной строке.

Скачать программу можно на официальном сайте wgsextract.github.io. Там же находится документация и актуальные релизы. Текущая стабильная версия - Beta v4.

На момент написания статьи вышла новая версия WGS Extract v6 Alpha.

Системные требования

Программа работает на Windows, macOS и Linux. Особых требований к процессору нет - чем мощнее машина, тем быстрее пройдёт выравнивание, но принципиальных ограничений нет.

Гораздо важнее свободное место на диске. С учётом исходных FASTQ файлов, референсных геномов и двух BAM файлов потребуется порядка 300 – 400 ГБ. При этом настоятельно рекомендую использовать SSD, а не HDD - выравнивание на жёстком диске будет значительно медленнее из-за низкой скорости записи.

Скачивание и установка

После скачивания архива с сайта распакуйте его в удобное место и запустите установочный скрипт для вашей операционной системы:

macOS - запустите файл Install_macos.command и разрешите установку в системных настройках
Windows - запустите файл Install_windows.bat от имени администратора
Linux - выполните в терминале bash Install_linux.sh

Скрипт автоматически установит все необходимые зависимости: samtools, BWA-MEM и другие биоинформатические утилиты. После завершения запустите программу через файл:

WGSExtract.command на macOS
WGSExtract.sh на Linux
WGSExtract.bat на Windows

Первоначальная настройка

Требования к диску

Прежде чем запускать программу, важно разобраться с местом на диске - это один из ключевых практических моментов.

В процессе работы WGS Extract создаёт несколько крупных файлов. Вот примерный расчёт необходимого пространства:

Исходные FASTQ (R1 + R2) - ~100–110 ГБ
Референсный геном hs37d5 - ~3 ГБ
Референсный геном T2T - ~4 ГБ
BAM файл hs37d5 - ~130–150 ГБ
BAM файл T2T - ~130–150 ГБ
Итого - ~370–420 ГБ

Объём BAM файлов зависит от реального покрытия ваших данных. Если провайдер заявляет 30x, фактическое покрытие нередко оказывается выше - в таком случае BAM файлы будут крупнее.

Не менее важна скорость диска. Выравнивание - это непрерывный интенсивный процесс чтения и записи, и HDD справится с ним значительно медленнее SSD. На практике разница может составлять в два-три раза по итоговому времени обработки. Оптимальный вариант - внешний NVMe SSD объёмом от 500 ГБ, подключённый через USB-C или Thunderbolt.

Настройка Output Directory

Первое что нужно сделать после запуска программы - задать папку для выходных файлов. Для этого откройте вкладку Settings и нажмите кнопку Output Directory. Укажите папку на диске с достаточным свободным местом.

Туда же рекомендую заранее скопировать и исходные FASTQ файлы - это ускорит работу, так как программа будет читать и писать с одного диска.

Важно: никогда не указывайте в качестве Output Directory папку внутри директории установки самой программы - это может привести к конфликтам при обновлении.

Выравнивание FASTQ в BAM

Выравнивание - это основной и самый длительный этап работы. Программа берёт исходные FASTQ файлы и «укладывает» каждый прочитанный фрагмент ДНК на соответствующее место референсного генома, создавая BAM файл - отсортированную карту вашего генома.

Для разных сервисов нужны BAM файлы, выровненные на разные референсные геномы. Поэтому выравнивание придётся запустить дважды:

hs37d5 - для получения аутосомных файлов и файла митохондриальной ДНК
T2T (CHM13 v2.0) - для получения файлов Y-хромосомы и митохондриальной ДНК

Если у вас данные от Dante Labs: вы уже получили готовый BAM файл, выровненный на hs37d5. Подраздел - "Выравнивание на hs37d5" можно пропустить и сразу перейти к следующему разделу. Для YFull потребуется выравнивание на T2T - следуйте подразделу - "Выравнивание на T2T", только вместо FASTQ укажите ваш BAM файл.

Выравнивание на hs37d5

Откройте вкладку Analyze и нажмите кнопку Align. В открывшемся окне выберите ваши FASTQ файлы - оба: R1 и R2. Затем в списке референсных геномов выберите hs37d5 (86 SNs).

Если вы используете этот референсный геном впервые, программа автоматически скачает его - около 3 ГБ. После загрузки задайте имя выходного BAM файла и нажмите подтверждение.

Начнётся процесс выравнивания. Его продолжительность зависит от мощности процессора и скорости диска - от нескольких часов до нескольких суток. По завершении обязательно перейдите к подразделу - "Проверка результатов через Stats".

Выравнивание на T2T

Процесс полностью аналогичен подразделу - "Выравнивание на hs37d5". Откройте вкладку Analyze, нажмите Align, выберите те же FASTQ файлы R1 и R2, но на этот раз укажите референсный геном T2T CHM13 v2.0 (25 SNs). Задайте новое имя для выходного BAM файла и нажмите подтверждение.

Выравнивание на T2T занимает заметно больше времени, чем на hs37d5 - от половины суток до 7 дней в зависимости от мощности вашего компьютера. По завершении обязательно перейдите к подразделу - "Проверка результатов через Stats".

Проверка результатов через Stats

После каждого выравнивания необходимо запустить Stats вручную - без этого шага все остальные кнопки программы останутся заблокированными. Перейдите на вкладку Settings, найдите раздел BAM/CRAM File и нажмите кнопку Stats. Для проиндексированного BAM файла результаты появятся за несколько секунд.

Программа отобразит сводную таблицу с ключевыми показателями. Вот на что обращать внимание:

Average Read Depth MAPPED - средняя глубина покрытия: сколько раз каждая позиция генома была прочитана. Для 30x теста нормальное значение - от 28x и выше. Значения ниже 20x могут свидетельствовать о проблемах при секвенировании или выравнивании
Gigabases MAPPED - объём данных, успешно выровненных на референс. Должно составлять около 95% от RAW Gigabases
Gigabases RAW - общий объём данных в файле (выровненные + невыровненные чтения). Для 30x теста ожидается 90 ГБ и выше
Read Segs MAPPED - количество индивидуальных ДНК фрагментов, выровненных на референс. Для 30x WGS типичные значения - от 600 до 900 миллионов
Reads MAPPED (%) - процент ридов, успешно выровненных на референсный геном. Хороший результат - 90% и выше. Значительно более низкий показатель может указывать на несоответствие референса или проблему с исходными FASTQ файлами
Reference Model - референсный геном, использованный при выравнивании. Убедитесь, что значение соответствует ожидаемому: hs37d5 или T2T CHM13 v2.0
File Content - содержимое файла. Должно показывать Whole Genome со всеми хромосомами (Auto, X, Y, Mito) . Если отображается только часть хромосом - что-то пошло не так при выравнивании

Если все показатели в норме - выравнивание прошло успешно и можно переходить к следующему разделу.

Получение аутосомных файлов

Аутосомные файлы имитируют результат коммерческого SNP-теста на микрочипе - только с более полным покрытием и меньшим числом пропущенных позиций. Именно эти файлы принимают генеалогические сервисы для поиска родственников и анализа происхождения.

Для этого шага вам понадобится BAM файл, выровненный на hs37d5 - либо созданный в подразделе - "Выравнивание на hs37d5", либо полученный напрямую от провайдера (например, Dante Labs). Убедитесь, что он загружен в программу и Stats был запущен.

Перейдите на вкладку Extract Data. В верхней части вкладки найдите раздел Microarray Test и нажмите большую кнопку "microarray Raw".

Откроется окно выбора форматов. Программа предложит четыре рекомендуемых варианта - нам нужны только два: Combined file of ALL SNPs и v3 + v5. Выберите их и нажмите "Generate".

Первая генерация занимает около 1 часа - программа выполняет полный пайлап и вызов вариантов. Появится окно ожидания - не закрывайте программу до его завершения. Все последующие запуски для того же BAM файла займут менее 2 минут, так как программа использует созданный CombinedKit как кэш.

Важно: не удаляйте файл CombinedKit из Output Directory. Он служит отправной точкой для быстрой генерации любых дополнительных форматов.

Получение файлов Y-хромосомы и мтДНК

Сервисы анализа Y-хромосомы и митохондриальной ДНК не принимают полный BAM файл целиком - им нужна только соответствующая часть генома. WGS Extract позволяет извлечь её в виде компактного файла весом 300–800 МБ вместо исходных 130–150 ГБ.

Вам потребуются два BAM файла, созданных ранее: выровненный на hs37d5 и выровненный на T2T CHM13 v2.0. Работа с файлами ведётся поочерёдно. Сначала загрузите BAM на hs37d5, запустите Stats и выполните нужные операции. Затем загрузите BAM на T2T, снова запустите Stats и повторите.

Для BAM файла, выровненного на hs37d5, перейдите на вкладку Extract Data и найдите раздел Mitochondrial DNA. Нажмите кнопку "MT-only FASTA". Программа извлечёт из полного BAM только чтения митохондриальной ДНК и сохранит ее в отдельный файл - в Output Directory появится файл с суффиксом _mtdna и расширением .fasta.

Для BAM файла на T2T CHM13 v2.0 перейдите на вкладку Extract Data, найдите раздел Y Chromosome и последовательно нажмите две кнопки:

"Y and MT BAM" - извлекает чтения Y-хромосомы и мтДНК, файл с суффиксом _chrYM
"Y-only BAM" - извлекает только чтения Y-хромосомы, файл с суффиксом _chrY

Процесс занимает несколько минут.

Для женщин: Y-хромосома в геноме отсутствует, поэтому раздел Y-DNA не актуален. Для анализа митохондриальной ДНК можно использовать кнопку "MT-only FASTA" в том же разделе.

Заключение

Если вы прошли все предыдущие шаги, у вас теперь есть полный набор файлов для загрузки в генеалогические сервисы. Подведём итог: что было сделано и куда что загружать.

Из BAM файла на hs37d5 вы получили аутосомные файлы - они используются для поиска родственников и анализа этнического происхождения и мтДНК - для анализа материнской линии и определения гаплогруппы. Из BAM файла на T2T вы получили файлы Y-хромосомы и мтДНК - они используется для анализа отцовской и материнской линий и определения гаплогруппы.

CombinedKit - GEDmatch
23andMe v35 - FTDNA, Familio и другие похожие сервисы
MT-only FASTA и Y-only BAM - YFull¹
Y and MT BAM - TheYtree
FASTQ - DNAChron и Genotek²

¹ Файл BAM загружается через облачное хранилище, например Dropbox - YFull скачивает его по ссылке.
² Для загрузки в Genotek напишите в службу поддержки и предоставьте ссылку на файлы в облаке, например Облако Mail.

Исходные FASTQ файлы - самый ценный долгосрочный актив. Из них можно в любой момент повторить выравнивание на любой референсный геном, в том числе на те, которые появятся в будущем. Никогда не удаляйте оригинальные FASTQ.

Дополнительно проверить качество BAM файлов можно на сайте bam.iobio.io - бесплатный онлайн-инструмент, который не требует установки и работает прямо в браузере. Он покажет покрытие по каждой хромосоме, процент выровненных ридов, уровень дублирования и распределение качества чтений - всё в виде наглядных графиков и за считанные секунды.