Найти в Дзене
Vladimir Taisin

Как «воскресить» ДНК родителей

Обоих родителей (дедушки/бабушки, прадедушки/прабабушки и другое) не стало — образцов их ДНК не осталось, а вам нужно понять, какие варианты генов они несли. Современные методы позволяют реконструировать почти полный VCF-файл каждого родителя, если в семье было много детей. VCF-файл можно загрузить практически в любой генетический сервис. VCF — стандартный формат текстового файла, используемый в генетической биоинформатике для хранения вариаций последовательности генов. Разработан в 2010 году для проекта «1000 геномов» и с тех пор использовался в других крупномасштабных проектах по генотипированию и секвенированию ДНК. Я наткнулся на недавнюю публикацию команды Y. Qiao и A. Williams, где описан алгоритм HAPI-RECAP — пожалуй, самая убедительная на сегодня демонстрация того, что ДНК умершего можно «собрать заново», имея лишь генотипы его детей. Авторы показали: используя данные по одному родителю, HAPI2 реконструирует большие доли ДНК отсутствующего родителя, 90,3% в среднем в семьях с т
Оглавление

Обоих родителей (дедушки/бабушки, прадедушки/прабабушки и другое) не стало — образцов их ДНК не осталось, а вам нужно понять, какие варианты генов они несли. Современные методы позволяют реконструировать почти полный VCF-файл каждого родителя, если в семье было много детей. VCF-файл можно загрузить практически в любой генетический сервис.

VCF — стандартный формат текстового файла, используемый в генетической биоинформатике для хранения вариаций последовательности генов. Разработан в 2010 году для проекта «1000 геномов» и с тех пор использовался в других крупномасштабных проектах по генотипированию и секвенированию ДНК.

Я наткнулся на недавнюю публикацию команды Y. Qiao и A. Williams, где описан алгоритм HAPI-RECAP — пожалуй, самая убедительная на сегодня демонстрация того, что ДНК умершего можно «собрать заново», имея лишь генотипы его детей. Авторы показали: используя данные по одному родителю, HAPI2 реконструирует большие доли ДНК отсутствующего родителя, 90,3% в среднем в семьях с тремя и четырьмя детьми. При реконструкции обоих родителей HAPI-RECAP выявил в среднем 70,6% генотипов родителей в семьях с четырьмя детьми. Реконструированные генотипы имеют среднюю ошибку < 0,1 %, что сравнимо с той, которую можно получить при прямом генотипировании. Это не магия: алгоритм использует закономерности мейоза (рекомбинации происходят чаще у женщин, реже у мужчин) и учёт наследственных блоков, общих у ближайших родственников (2-я степень родства).

Эта работа вдохновила меня разобраться, как возможно применить метод на практике и описать его пошагово. К сожалению, моих бабушки и дедушки по одной линии уже нет — а главное, у них не было шести детей, что считается оптимальным для почти полного «воскрешения» генома. Если в вашем случае такое осуществимо для обогащения цифрового «генетического архива» своей семьи или вы просто интересуетесь современными трюками популяционной генетики, ниже я расскажу, как по-честному реконструируется VCF обоих родителей: от забора слюны у живых детей до финальной доработки импьютацией. Опишу процесс в виде пяти шагов. Всё изложенное базируется на общепринятых принципах наследования и на публикациях о пакете HAPI-RECAP (лицензия MIT) — ссылки можно найти в упомянутой статье авторов.

Шаг 1. Сначала тестируем всех детей

Зачем много детей?
Каждый ребёнок несёт
случайную половину генов отца и половину генов матери. Чем больше потомков, тем больше фрагментов родительских хромосом попадает в «мозаику», из которой мы потом будем собирать общий рисунок. Практика показывает, что шесть детей дают около 90–95 % восстановленных позиций; седьмой и последующие будут добавлять менее значимое уточнение. (Желательно тест для всех делать в одной фирме с устойчиво высоким качеством анализа).

Поровну сыновей и дочерей оптимально! — Почему?
Сыновья дают отцовскую Y-хромосому, а дочери вместе покрывают почти обе X-хромосомы матери. Баланс полов упрощает последующую «подпись» — к какой цепочке отнести найденные аллели.

Какой тест выбрать?
Достаточно обычного аутосомного теста на ~700 тыс. SNP в любой хорошей компании.

После анализа в личном кабинете лаборатории выгружаем raw-файлы всех протестированных детей.

Шаг 2. Черновая подготовка файлов

На этом этапе приводим данные разных детей к одному формату (PLINK) и объединяем в общий набор. Команда plink копирует аллели из текстовых таблиц в компактный бинарный файл. Важно пройтись утилитой контроля качества: удалить дубли, проверить соответствие пола и процент пропусков.

Шаг 3. Фазировка — узнаём, какие буквы ДНК стоят рядом

Фазировка — это попытка угадать, какие аллели лежат на одной и той же хромосомной нити. Для этого используют программы Eagle или SHAPEIT. Они работают по принципу скрытой цепи Маркова: перебирают варианты, где могли произойти кроссинговеры, и оставляют тот сценарий, который требует минимального числа рекомбинаций и лучше согласуется с общей картой частот аллелей.

Подаём половые-специфичные рекомбинационные карты. У женщин кроссинговеров больше (1.7х): если этот факт учесть, фаза выстраивается точнее.

Шаг 4. Реконструкция родителей с помощью HAPI-RECAP

Теперь в игру вступает ключевая программа.

Что она делает под капотом?:

Строит наследственный вектор. Для каждого участка генома отмечается, какой из двух отцовских и какой из двух материнских кусочков унаследовал каждый ребёнок.

Ищет глобальное решение. Алгоритм перебирает варианты так, чтобы общее число кроссинговеров было минимальным и консистентным между всеми 22 аутосомами, а также X и Y, если есть.

Определяет, где отец, где мать.
На помощь приходит статистика: мужская цепочка даёт ~26 кроссинговеров на геном, женская ~44. Разница заметна при четырёх и более детях.

Выплёвывает два черновых VCF-файла — один для отца, второй для матери. Пропуски остаются там, где дети не дали нужной информации (например, оба родителя гетерозиготны по тем же аллелям).

Шаг 5. Импьютация — дорисовываем пробелы

Даже при шести детях часть позиций остаётся неопределённой. Закрыть их помогает им­пьютация — статистическое предсказание аллелей по огромным эталонным панелям (TOPMed, 1000 Genomes). Процесс похож на автозаполнение текста: если во множестве геномов с похожими соседями почти всегда стоит буква «GA», программа поставит «GA».
Распространённые SNP (> 5 %) восстанавливаются почти полностью.

Чего не получится воссоздать?
митоДНК отца

Что лежит в конечных файлах?

Для отца: все 22 аутосомы в диплоидном виде, полноразмерная Y-хромосома, а также часть X, который он передал дочерям.

Для матери: 22 аутосомы, почти полная X (благодаря дочерям) и митохондриальная ДНК.

Зачем нужны полученные VCF-файлы?

  • Медицина. Можно проверить, какие потенциально опасные варианты были у родителей и кому из детей они достались.
  • Генеалогия. Происхождение, этника, поиск родственников, верификация документальной родословной росписи.
  • Научные задачи. Изучать конкретные мутации.
Если у вас есть минимум шесть родных детей от интересующей умершей пары родителей, их (детей) данных достаточно, чтобы «собрать» почти полные маркерные .vcf родителей. Процесс укладывается в несколько шагов: тест детей → фазировка → алгоритм HAPI-RECAP → импьютация. Ключевой математический трюк — учёт реальной частоты кроссинговеров: мужские хромосомы реже «дробятся» мейозом, женские — чаще. Эта асимметрия и позволяет машине различить два родительских набора хромосом без физического доступа к самим родителям.

Ссылки на упомянутый софт

  • PLINK 1.9 / 2.0 — базовый набор для QC-обработки и конвертации генотипов (BED/VCF, фильтры, статистика).
    https://www.cog-genomics.org/plink/
  • Eagle v2 — быстрая фазировка аутосом с учётом половых рекомбинационных карт.
    https://alkesgroup.broadinstitute.org/Eagle/
  • SHAPEIT4 — альтернативный фазировщик (особенно удобен для больших массивов WGS).
    https://github.com/odelaneau/shapeit4
  • HAPI-RECAP (+ HAPI2) — ключевой инструмент, который из фазированных детей собирает родительские гаплотипы и определяет их пол.
    https://github.com/williamslab/hapi2
  • IBDseq — поиск длинных сегментов идентичности-по-происхождению (IBD), пригодных для «склейки» гаплотипов.
    faculty.washington.edu
  • Michigan Imputation Server — облачный сервис им­пьютации (Minimac4, панели TOPMed/1000 G).
    imputationserver.readthedocs.io
  • В Дзэне есть пример практической им­пьютации с использованием DNA Kit Studio

За подробностями ныряйте сюда: https://www.biorxiv.org/content/10.1101/2024.05.10.593578v1

Щелкни мышкой лайк, если было интересно