Обоих родителей (дедушки/бабушки, прадедушки/прабабушки и другое) не стало — образцов их ДНК не осталось, а вам нужно понять, какие варианты генов они несли. Современные методы позволяют реконструировать почти полный VCF-файл каждого родителя, если в семье было много детей. VCF-файл можно загрузить практически в любой генетический сервис.
VCF — стандартный формат текстового файла, используемый в генетической биоинформатике для хранения вариаций последовательности генов. Разработан в 2010 году для проекта «1000 геномов» и с тех пор использовался в других крупномасштабных проектах по генотипированию и секвенированию ДНК.
Я наткнулся на недавнюю публикацию команды Y. Qiao и A. Williams, где описан алгоритм HAPI-RECAP — пожалуй, самая убедительная на сегодня демонстрация того, что ДНК умершего можно «собрать заново», имея лишь генотипы его детей. Авторы показали: используя данные по одному родителю, HAPI2 реконструирует большие доли ДНК отсутствующего родителя, 90,3% в среднем в семьях с тремя и четырьмя детьми. При реконструкции обоих родителей HAPI-RECAP выявил в среднем 70,6% генотипов родителей в семьях с четырьмя детьми. Реконструированные генотипы имеют среднюю ошибку < 0,1 %, что сравнимо с той, которую можно получить при прямом генотипировании. Это не магия: алгоритм использует закономерности мейоза (рекомбинации происходят чаще у женщин, реже у мужчин) и учёт наследственных блоков, общих у ближайших родственников (2-я степень родства).
Эта работа вдохновила меня разобраться, как возможно применить метод на практике и описать его пошагово. К сожалению, моих бабушки и дедушки по одной линии уже нет — а главное, у них не было шести детей, что считается оптимальным для почти полного «воскрешения» генома. Если в вашем случае такое осуществимо для обогащения цифрового «генетического архива» своей семьи или вы просто интересуетесь современными трюками популяционной генетики, ниже я расскажу, как по-честному реконструируется VCF обоих родителей: от забора слюны у живых детей до финальной доработки импьютацией. Опишу процесс в виде пяти шагов. Всё изложенное базируется на общепринятых принципах наследования и на публикациях о пакете HAPI-RECAP (лицензия MIT) — ссылки можно найти в упомянутой статье авторов.
Шаг 1. Сначала тестируем всех детей
Зачем много детей?
Каждый ребёнок несёт случайную половину генов отца и половину генов матери. Чем больше потомков, тем больше фрагментов родительских хромосом попадает в «мозаику», из которой мы потом будем собирать общий рисунок. Практика показывает, что шесть детей дают около 90–95 % восстановленных позиций; седьмой и последующие будут добавлять менее значимое уточнение. (Желательно тест для всех делать в одной фирме с устойчиво высоким качеством анализа).
Поровну сыновей и дочерей оптимально! — Почему?
Сыновья дают отцовскую Y-хромосому, а дочери вместе покрывают почти обе X-хромосомы матери. Баланс полов упрощает последующую «подпись» — к какой цепочке отнести найденные аллели.
Какой тест выбрать?
Достаточно обычного аутосомного теста на ~700 тыс. SNP в любой хорошей компании.
После анализа в личном кабинете лаборатории выгружаем raw-файлы всех протестированных детей.
Шаг 2. Черновая подготовка файлов
На этом этапе приводим данные разных детей к одному формату (PLINK) и объединяем в общий набор. Команда plink копирует аллели из текстовых таблиц в компактный бинарный файл. Важно пройтись утилитой контроля качества: удалить дубли, проверить соответствие пола и процент пропусков.
Шаг 3. Фазировка — узнаём, какие буквы ДНК стоят рядом
Фазировка — это попытка угадать, какие аллели лежат на одной и той же хромосомной нити. Для этого используют программы Eagle или SHAPEIT. Они работают по принципу скрытой цепи Маркова: перебирают варианты, где могли произойти кроссинговеры, и оставляют тот сценарий, который требует минимального числа рекомбинаций и лучше согласуется с общей картой частот аллелей.
Подаём половые-специфичные рекомбинационные карты. У женщин кроссинговеров больше (≈1.7х): если этот факт учесть, фаза выстраивается точнее.
Шаг 4. Реконструкция родителей с помощью HAPI-RECAP
Теперь в игру вступает ключевая программа.
Что она делает под капотом?:
Строит наследственный вектор. Для каждого участка генома отмечается, какой из двух отцовских и какой из двух материнских кусочков унаследовал каждый ребёнок.
Ищет глобальное решение. Алгоритм перебирает варианты так, чтобы общее число кроссинговеров было минимальным и консистентным между всеми 22 аутосомами, а также X и Y, если есть.
Определяет, где отец, где мать.
На помощь приходит статистика: мужская цепочка даёт ~26 кроссинговеров на геном, женская ~44. Разница заметна при четырёх и более детях.
Выплёвывает два черновых VCF-файла — один для отца, второй для матери. Пропуски остаются там, где дети не дали нужной информации (например, оба родителя гетерозиготны по тем же аллелям).
Шаг 5. Импьютация — дорисовываем пробелы
Даже при шести детях часть позиций остаётся неопределённой. Закрыть их помогает импьютация — статистическое предсказание аллелей по огромным эталонным панелям (TOPMed, 1000 Genomes). Процесс похож на автозаполнение текста: если во множестве геномов с похожими соседями почти всегда стоит буква «GA», программа поставит «GA».
Распространённые SNP (> 5 %) восстанавливаются почти полностью.
Чего не получится воссоздать?
митоДНК отца
Что лежит в конечных файлах?
Для отца: все 22 аутосомы в диплоидном виде, полноразмерная Y-хромосома, а также часть X, который он передал дочерям.
Для матери: 22 аутосомы, почти полная X (благодаря дочерям) и митохондриальная ДНК.
Зачем нужны полученные VCF-файлы?
- Медицина. Можно проверить, какие потенциально опасные варианты были у родителей и кому из детей они достались.
- Генеалогия. Происхождение, этника, поиск родственников, верификация документальной родословной росписи.
- Научные задачи. Изучать конкретные мутации.
Если у вас есть минимум шесть родных детей от интересующей умершей пары родителей, их (детей) данных достаточно, чтобы «собрать» почти полные маркерные .vcf родителей. Процесс укладывается в несколько шагов: тест детей → фазировка → алгоритм HAPI-RECAP → импьютация. Ключевой математический трюк — учёт реальной частоты кроссинговеров: мужские хромосомы реже «дробятся» мейозом, женские — чаще. Эта асимметрия и позволяет машине различить два родительских набора хромосом без физического доступа к самим родителям.
Ссылки на упомянутый софт
- PLINK 1.9 / 2.0 — базовый набор для QC-обработки и конвертации генотипов (BED/VCF, фильтры, статистика).
https://www.cog-genomics.org/plink/ - Eagle v2 — быстрая фазировка аутосом с учётом половых рекомбинационных карт.
https://alkesgroup.broadinstitute.org/Eagle/ - SHAPEIT4 — альтернативный фазировщик (особенно удобен для больших массивов WGS).
https://github.com/odelaneau/shapeit4 - HAPI-RECAP (+ HAPI2) — ключевой инструмент, который из фазированных детей собирает родительские гаплотипы и определяет их пол.
https://github.com/williamslab/hapi2 - IBDseq — поиск длинных сегментов идентичности-по-происхождению (IBD), пригодных для «склейки» гаплотипов.
faculty.washington.edu - Michigan Imputation Server — облачный сервис импьютации (Minimac4, панели TOPMed/1000 G).
imputationserver.readthedocs.io - В Дзэне есть пример практической импьютации с использованием DNA Kit Studio
За подробностями ныряйте сюда: https://www.biorxiv.org/content/10.1101/2024.05.10.593578v1
Щелкни мышкой лайк, если было интересно