Найти в Дзене
Vladimir Taisin

Отцовская или материнская линия: влияние пола предка на совпадения ДНК-сегментов

При поиске дальних родственников генетическому генеалогу нередко приходится решать задачу, от какой родительской ветви (отцовской или материнской) происходит общий предок с найденным совпаденцем. Это особенно актуально для совпаденцев степени родства 3–5 (например, троюродные–пятюродные братья/сестры), когда общих предков могло быть несколько и прямой документальной связи нет. Современные ДНК-сервисы предоставляют списки таких совпаденцев с указанием общего процента ДНК и набора общих IBD-сегментов (англ. identical by descent, идентичные по происхождению сегменты), однако в общем случае не могут надежно определить линию родства без данных родителей, так как совпадающий сегмент может приходиться на любую из двух копий хромосомы. Тем не менее в отдельных ситуациях это все же возможно: например, некоторые сервисы используют совпадения по X-хромосоме или характер распределения общих сегментов для предположения стороны родства. FTDNA при наличии достаточно близкого родственника (например, т
Оглавление

При поиске дальних родственников генетическому генеалогу нередко приходится решать задачу, от какой родительской ветви (отцовской или материнской) происходит общий предок с найденным совпаденцем. Это особенно актуально для совпаденцев степени родства 3–5 (например, троюродные–пятюродные братья/сестры), когда общих предков могло быть несколько и прямой документальной связи нет. Современные ДНК-сервисы предоставляют списки таких совпаденцев с указанием общего процента ДНК и набора общих IBD-сегментов (англ. identical by descent, идентичные по происхождению сегменты), однако в общем случае не могут надежно определить линию родства без данных родителей, так как совпадающий сегмент может приходиться на любую из двух копий хромосомы. Тем не менее в отдельных ситуациях это все же возможно: например, некоторые сервисы используют совпадения по X-хромосоме или характер распределения общих сегментов для предположения стороны родства. FTDNA при наличии достаточно близкого родственника (например, троюродного брата/сестры или ближе) может автоматически разделять совпаденцев на материнскую и отцовскую линии. Однако такие методы работают лишь при определённых условиях и не покрывают всех совпадений, поэтому в типичной ситуации без тестов родителей линия родства остается неопределенной. На практике это означает, что исследователь вынужден проверять гипотезы по обеим семейным линиям, что удваивает трудозатраты. Решение этой проблемы позволило бы значительно ускорить поиск общего предка: зная заранее, что, скажем, совпаденец вероятнее относится к отцовской линии, можно сфокусироваться на соответствующей части родословной.

Многие сталкивались с ситуацией, когда список дальних ДНК-совпадений содержит десятки незнакомых фамилий, и неясно, к какой половине родословного древа их привязать. Особенно остро это стоит для потомков мигрантов или в случаях, когда одна из линий малоизучена: неправильно определив линию, можно надолго зайти в тупик. Таким образом, разработка дополнительного подхода к определению стороны родства совпаденца на основе характеристик общих IBD-сегментов представляет большой интерес. Ниже я хотел бы рассмотреть теоретические предпосылки к такому подходу и предложить гипотезу о влиянии пола родителей на распределение IBD-сегментов, а затем обсудить план возможного исследования этой гипотезы.

Теоретическая основа и практические предпосылки

IBD-сегмент – это фрагмент ДНК, идентичный у двух человек благодаря тому, что унаследован от общего предка, а не случайно (не путать с идентичностью по состоянию, IBS). Когда двоюродные или более дальние родственники имеют общий участок ДНК, это означает, что этот участок передавался через поколения по наследству без прерывания рекомбинацией. Длину IBD-сегмента обычно измеряют в сантиморганах (cM) – единицах генетического расстояния, отражающих вероятность кроссинговера (рекомбинации) между концами сегмента. Один сантиморган примерно соответствует 1% шанса того, что за одно поколение между двумя точками генома произойдёт разрыв из-за рекомбинации. Чем длиннее сегмент в cM, тем выше вероятность, что он унаследован от недавнего предка. Короткие сегменты могут происходить от весьма далекого предка или вообще быть случайным совпадением. Современные ДНК-тесты обычно не учитывают совпадения короче 6–8 cM из-за их ненадежности для генеалогии (высок риск ошибочно считать их IBD). Таким образом, общая длина и количество IBD-сегментов между двумя людьми несут информацию о степени их родства: близкие родственники имеют больше и длиннее общих сегментов, дальние – меньше и короче.

При каждом поколении происходит мейотическая рекомбинация: родительские хромосомы обмениваются участками, формируя у потомка новую комбинацию аллелей. Число и распределение этих кроссинговеров неслучайны и имеют биологические закономерности. Известно, что рекомбинационная активность у мужчин и женщин различается. Так, женская мейоз включает примерно в 1,6–1,7 раза больше кроссинговеров, чем мужской [1,2]. Согласно данным PLOS Genetics, среднее число рекомбинаций на мейоз у женщин оценено в 41,1, а у мужчин – 26,4 [3]. Биологически это объясняется тем, что при оогенезе требуются как минимум один обмен на каждую пару гомологов, причем часто и больше одного, тогда как сперматогенез минималистичнее. Кроме того, расположение кроссинговеров по длине хромосом тоже различается: у мужчин заметно реже обмены происходят вблизи центромер, тогда как у женщин они распределены более равномерно [2,5]. У мужчин же напротив – повышенная частота рекомбинаций ближе к теломерам.

Практическим следствием этих различий является то, что отец и мать передают потомкам ДНК разного кроя. Мать, осуществляя больше кроссинговеров, передает ребенку хромосомы, состоящие из большего числа более мелких фрагментов бабушкиной и дедушкиной ДНК. Отец же, имея меньше обменов, передает крупные блоки, иногда даже целые нерасщепленные участки. Моя генетико-генеалогическая практика показывает, что в среднем отец передает примерно 5 хромосом без единого кроссинговера, тогда как у матери таких целиком унаследованных хромосом редко больше 2-3. Иначе говоря, у потомка больше шансов получить от отца длинный непрерывный сегмент генома дедушки или бабушки. От матери же почти каждая хромосома будет представлять мозаику из 1 и более сегментов.

В этой связи показателен пример сравнения карт общих IBD-сегментов внучки со своими бабушками и дедушками по различным линиям (материнской и отцовской) (Рис.1). На карте видно, насколько сильно женский мейоз дробит IBD-фрагменты, и это полностью соответствует теоретическим данным о более высокой частоте кроссинговера у женщин. В случае бабушки и дедушки по материнской линии (Рис. 1, А и B) видно большое число коротких сегментов, разбросанных по многим хромосомам: ДНК прошла через женский мейоз, что привело к сильной фрагментации. При сравнении с бабушкой и дедушкой по отцу (Рис. 2, C и D) количество отдельных IBD-сегментов уже заметно меньше и они длиннее: один женский мейоз дробит ДНК умеренно, но мужской мейоз отца почти не добавляет новых разрывов. Таким образом, визуальный материал последовательно демонстрирует общий принцип: при передаче через мужчин IBD-сегменты сохраняются более крупными, а при прохождении через женщин — дробятся на большее количество коротких участков, что полностью согласуется с теоретическими данными о разнице в рекомбинационной активности между мужским и женским мейозами [2,4].

Рис. 1. Карта общих IBD-сегментов внучки с бабушкой (A) и дедушкой (B) по материнской линии. Скриншоты из личного кабинета Genotek; предоставлены пользователем и использованы с его согласия.
Рис. 1. Карта общих IBD-сегментов внучки с бабушкой (A) и дедушкой (B) по материнской линии. Скриншоты из личного кабинета Genotek; предоставлены пользователем и использованы с его согласия.
Рис. 2. Карта общих IBD-сегментов внучки с бабушкой (C) и дедушкой (D) по отцовской линии. Скриншоты из личного кабинета Genotek; предоставлены пользователем и использованы с его согласия.
Рис. 2. Карта общих IBD-сегментов внучки с бабушкой (C) и дедушкой (D) по отцовской линии. Скриншоты из личного кабинета Genotek; предоставлены пользователем и использованы с его согласия.

Эти различия закладываются уже на уровне братьев и сестер например, если рассмотреть двух единоутробных или единокровных братьев/сестер, имеющих общего только мать или только отца, то характер их общих IBD-сегментов будет статистически отличаться. В практике наблюдал, что единоутробные братья/сестры (общая мать) разделяют между собой несколько больше отдельных IBD-сегментов, чем единокровные (общий отец) при приблизительно той же общей доле ДНК. При этом среднее число IBD-сегментов, если округлять, ближе к 50 для общей матери и к 35 для общего отца (единокровных). Это наглядно отражает более высокое дробление ДНК при ее передаче через женщину. Однако суммарная длина совпадений при этом может быть схожей, просто она нарезана на разное число кусков. Также отмечал, что у единокровных братьев/сестер каждый общий сегмент в среднем длиннее, тогда как у единоутробных – сегменты короче, но их больше.

Можно ожидать, что эти различия проявляются и на уровне более отдаленных отношений. При чисто женской цепочке родства (например, прабабушка → бабушка → мать → ребенок) общее между дальними n-юродными братьями/сестрами наследство разбивается на большее число мелких сегментов, тогда как при последовательности "прадед → дед → отец → ребенок" сохраняются более крупные фрагменты. Таким образом, теория, на мой взгляд, допускает предположение, что пол предков влияет на картину IBD-совпадений: мама дробит наследуемый сегмент сильнее, мужчина – сохраняет сегменты крупнее.

Гипотеза

Опираясь на изложенное выше, можно предложить гипотезу:

у потомков систематически наблюдается разница в характеристиках общих IBD-сегментов в зависимости от того, по линии отца или матери происходит родство с совпаденцем.

А именно, предполагаю, что по отцовской линии дальние родственники будут иметь, в среднем, либо более длинные отдельные совпадающие сегменты, либо большую суммарную длину совпадений, чем эквивалентные по степени родства родственники по линии матери. Проще говоря, путь ДНК через отцов последовательно дает менее рекомбинированные, а значит, более крупные кусочки общего ДНК предка, тогда как через матерей – более раздробленные. Например, троюродный брат со стороны отца среди прочих может разделять один длинный сегмент, тогда как троюродный по матери – больше мелких сегментов. Для близких степеней родства разница проявляется в числе сегментов (как у единокровных братьев/сестер выше), а для дальних – скорее в том, уцелел ли крупный сегмент или общий геном распался на слишком мелкие фрагменты.

Если эта гипотеза верна, то можно предположить, что в списке ДНК-совпадений у человека одна из родительских сторон будет представлена шире при прочих равных. В своей практике генетического генеалога я, действительно, замечал, что бывает непропорционально много совпаденцев по линии отца. Возможно, дело не в том, что у той стороны просто больше потомков или кто-то чаще сдает тесты, но и в биологическом преимуществе: общие предки по отцовской линии могут определяться алгоритмом чаще, потому что переданные ими сегменты крупнее и легче превышают порог детекции. Материнские же сегменты, часто более короткие, могут просто не доходить до пороговых 6–8 cM и остаются неучтенными. Таким образом, дальние родственники через отцов могут чаще идентифицироваться ДНК-сервисами, тогда как эквивалентные по родству через матерей либо не обнаруживаются, либо показывают слишком малые совпадения.

Важно подчеркнуть, что речь идет о статистическом эффекте, проявляющемся на больших выборках. В каждой конкретной родословной разброс вариантов велик: реальный объем унаследованной ДНК от конкретного предка сильно варьирует случайным образом. Тем не менее, если собрать достаточно данных, можно ожидать подтверждение или опровержение систематического сдвига в сторону больших/длинных сегментов у родственников, связанных через отцовскую линию. Это особенно может сказаться на диапазоне, где совпадает до 1% генома. Не исключено, что для очень дальних (>6 степени) совпадения столь редки и малы, что эффект пола может тонуть в шуме. Поэтому, предварительно фокус стоит наводить народственниках до 5-юродных, которые нередко фигурируют в генеалогических исследованиях.

Возможный дизайн исследования

Для проверки гипотезы потребуется собрать специальную выборку геномных данных и продумать метрики анализа. Оптимальным исходным набором были бы трио "ребёнок – отец – мать" из одной популяции (например, несколько десятков семей определенного происхождения, чтобы минимизировать влияние этнической неоднородности). Наличие генотипов обоих родителей позволит точно определить, какие сегменты ребенок унаследовал от отца, а какие от матери, то есть выполнить фазирование генома ребенка на отцовский и материнский гаплотипы.

Далее для каждого ребенка из трио можно проанализировать списки его совпаденцев с использованием данных тестирования. Эти совпаденцы включают информацию о всех общих IBD-сегментах с данным ребёнком. Затем, зная фазировку, каждый общий сегмент можно отнести либо к отцовской, либо к материнской половине генома ребенка. Проще говоря, проверяется, с кем из родителей данный совпаденец тоже имеет совпадание на этом участке. Например, если совпадающий сегмент обнаружен у ребенка и совпаденца и одновременно присутствует у отца, но отсутствует у матери, значит сегмент пришел через отца. Такой метод установления стороны родства совпаденца доступен и исключает неоднозначность. Если же оба родителя недоступны, существуют альтернативы: косвенное фазирование по множеству родственников или визуальный метод, когда несколько родных братьев/сестер сравнивают сегменты и раскрашивают их по бабушкам/дедушкам. Однако эти методы сложнее и могут давать ошибки, поэтому для строгого исследования мы ограничимся полными трио.

Итак, получив разделение совпадений ребенка на отцовские и материнские, мы можем рассчитать нужные метрики. В первую очередь интересны: (1) общее число совпаденцев по каждой линии в заданном диапазоне родства (скажем, учитываем всех, чья суммарная общая ДНК 20–200 cM); (2) распределение суммарной длины общих сегментов с ребенком для отцовских vs материнских совпаденцев; (3) распределение длины самого большого сегмента; (4) среднее число сегментов на совпденца. Эти показатели в совокупности позволят уловить разницу в паттернах. Например, гипотеза предсказывает, что у отцовских совпаденцев чаще встречаются большие по длине сегменты и, возможно, выше средняя суммарная ДНК на совпденца, тогда как у материнских может быть больше самих совпаденцев (но с меньшими отрезками). Статистически значимые отличия можно будет проверить, применив T-критерий Стьюдента или непараметрические аналоги для средних значений, а также сравнение распределений (критерий Колмогорова–Смирнова) между двумя выборками (папиной и маминой).

Еще один интересный экспериментальный дизайн – изучить конкретные родственные пары. Например, выбрать из базы данных набор случаев, где известно, что для человека имеется двоюродный/троюродный брат/сестра А по отцовской линии и двоюродный/троюродный брат/сестра В по материнской линии (т.е. две аналогичные степени родства, но разные линии). Сравнив пары таких случаев, можно непосредственно увидеть, отличается ли объем совпадений.

Для проецирования и проверки гипотезы как инструмента на больший объем совпаденцев разной степени родства стоит контролировать параметры: всех испытуемых взять из одной популяции (чтобы уровень фоновых совпадений был одинаковым), по возможности исключить близкородственные браки в недавних поколениях (иначе одна линия может давать аномально много ДНК из-за дублей предков), и использовать единый алгоритм детекции IBD-сегментов. Последний пункт важен, так как разные сервисы могут по-разному фильтровать сегменты. В идеале, конечно, выполнять поиск IBD-сегментов централизованно на полном генотипе, используя, например, алгоритм IBIS или RaPID, чтобы равномерно оценть совпадение. После получения сырых совпадений – применить одинаковый порог отсечения (например, учитывать только сегменты ≥8 cM, чтобы отсечь случайные совпадения).

Возможные ограничения

При интерпретации результатов такого исследования нужно учитывать ряд ограничений и факторов, которые могут замаскировать или исказить искомый эффект:

  • Структура популяции. Если выборка включает людей из эндогамных групп или с сильными эффектами “фонового родства”, это повлияет на число и длину IBD-сегментов. В популяциях с историей небольшого размера (например, изолированные села, этнические группы с многократными браками внутри общины) даже далекие негенеалогические родственники имеют заметные участки общих предков. Это может увеличить как число ложных совпаденцев, так и сделать сегменты необычно длинными. Для чистоты эксперимента желательно брать относительно открытую популяцию, где дальние родства – случайны и редки. В противном случае понадобится статистическая корректировка.
  • Алгоритмы поиска IBD. Разные программы или компании могут давать несколько различные списки совпадений. Возможны ложно положительные сегменты (особенно на длинах менее 6-8 cM) которые не настоящие IBD, а лишь шум. Если таких много, они могут превалировать в одной из линий. Например, если материнская сторона этнически однородна с тестируемым, а отцовская иная, то близость геномов матери и тестируемого может порождать больше мелких IBS-совпадений с людьми из той же популяции. Современные методы стараются фильтровать ложные сегменты, но полностью проблему не решают. Поэтому либо поднимать порог длины сегмента для учета, либо оперировать суммарными cM, куда вклад мелких ошибок невелик. Также важно, что чувствительность к коротким сегментам означает для нас недоучет некоторых дальних совпадений по материнской линии (ведь мы предполагаем, что там сегменты короче). То есть эффект гипотезы в реальных данных может даже усилиться искусственно: алгоритмы просто “не видят” коротких материнских сегментов <6-8 cM, поэтому отцовских совпадений в списке окажется относительно больше. Это не обман, а часть реальности работы с данными, однако интерпретация должна это учитывать.
  • Слабость эффекта и ошибка выборки. Хотя разница в числе кроссинговеров между полами велика, итоговая доля ДНК от конкретного дальнего предка имеет большой разброс. Статистически, у каждого поколения потомков около половины потомков вообще не наследуют ни одного конкретного участка предка (ведь с ~50% вероятностью любой сегмент может не передаться). Поэтому даже если в среднем по отцовской линии сегменты крупнее, конкретный потомок мог просто не получить нужный сегмент, а по другой линии случайно получил. Для выявления тенденции потребуется достаточно крупная выборка случаев – десятки, а лучше сотни семей. Тогда индивидуальный шум усреднится. Малый объем выборки может привести к ложноотрицательному результату (не удастся отличить, где отец, где мать, статистически).

Практическая ценность

Если же гипотеза найдет подтверждение, это откроет новые возможности для практической генетической генеалогии. Дополнительный инструмент для выбора маршрута к общему предку – так можно описать итог. В ситуации, когда имеется дальний ДНК-совпаденец без очевидных подсказок (нет фамилий или деревьев), знание вероятной линии родства сузит круг поиска. Например, выяснив, что данный совпаденец скорее связан через отцовскую сторону, исследователь будет фокусироваться на фамилиях и местах происхождения предков отца. Это особенно ценно, когда не хватает данных: скажем, архивы не сохранились или известно только несколько поколений по одной из ветвей. Также это поможет избегать тупиков: если метод указывает на материнскую линию, не придется тратить время на перебор кандидатов среди отцовских предков.

Кроме того, сам факт различия сегментов в зависимости от пола предка обогатит понимание процессов наследования. Для энтузиастов ДНК-генеалогии это станет еще одной любопытной закономерностью, подобно другим известным правилам (например, “сегменты короче 7 cM ненадежны” или “кузены N-й степени в среднем делят X cM”). Теоретически это можно будет даже внедрить в автоматические алгоритмы: к примеру, в качестве возможных подсказок ("вероятность родства по отцу выше" или "вероятность родства по матери выше")

Наконец, подтверждение гипотезы укрепит мост между академической наукой о рекомбинации и практической генеалогией. Мы показали бы, что тонкий молекулярно-генетический эффект (разница в картах кроссинговеров полов) имеет ощутимое влияние на прикладной уровень – на то, как мы находим родственников по ДНК. Это хороший возможный пример интеграции фундаментальных знаний и пользовательских приложений ДНК-тестов.

На мой взгляд, эта проблема при доработке может даже дотянуть до потенциальной темы объемной курсовой работы.

В рамках такой работы студент смог бы провести описанный сбор и анализ данных: фазировать геномы семей, выделить совпадения по линиям и статистически сравнить показатели. Это задание на стыке биоинформатики, генетики и собственно генеалогии, дающее навыки работы с реальными данными и приносящее научно-практический результат.

Учитывая все выше указанное, к анализу надо подходить осторожно. Данную гипотезу можно проверить, имея большую выборку, что под силу только исследовательским департаментам крупных DTC-сервисов. В нашей стране — это Genotek. В Америке — прежде всего FTDNA, 23andMe и AncestryDNA, в Англии — сервис Living DNA, у которых многомиллионные базы клиентов и собственные R&D-подразделения.

На последок, исходя из различий в рекомбинационной активности, можно аккуратно предположить, что в линиях родства, где от пробанда до общего предка проходит больше мужчин, вероятность сохранения и обнаружения крупного IBD-сегмента от этого предка выше, чем в линиях с преобладанием женщин. Мужские мейозы дают меньше кроссинговеров, поэтому каждый дополнительный мужской этап в цепочке передачи уменьшает степень фрагментации наследуемой ДНК и увеличивает шансы, что хотя бы один сегмент дойдет до пробанда в виде протяжённого, легко детектируемого участка.

Таким образом, если бы мы располагали результатами тестирования всех прямых предков, то наиболее дальних совпаденцев, вероятно, мы бы наблюдали именно по отцовской линии, тогда как по материнской такие совпадения «вымывались» бы быстрее из-за большего числа женских рекомбинаций. Иными словами, мужская последовательность передач лучше сохраняет крупные фрагменты ДНК предка на протяжении нескольких поколений, тогда как женская цепочка дробит их настолько сильно, что они чаще оказываются короче порогов обнаружения.

Выражаю благодарность Рустаму Усманову за разрешение включить использованные иллюстрации в данную научно-популярную публикацию.

  1. Lee, Y.-S.; Chao, A.; Chen, C.-H.; Chou, T.; Wang, S.-Y. M.; Wang, T.-H. Analysis of human meiotic recombination events with a parent-sibling tracing approach. BMC Genomics 2011, 12, 434. DOI: 10.1186/1471-2164-12-434.
  2. Bhérer, C.; Campbell, C. L.; Auton, A. Refined genetic maps reveal sexual dimorphism in human meiotic recombination at multiple scales. Nat. Commun. 2017, 8, 14994. DOI: 10.1038/ncomms14994.
  3. Chowdhury, R.; O’Reilly, P. F.; Yngvadottir, B.; Li, Y.; et al. Genetic analysis of variation in human meiotic recombination. PLoS Genet. 2009, 5 (9), e1000648. DOI: 10.1371/journal.pgen.1000648.
  4. Caballero, M.; Seidman, D. N.; Qiao, Y.; Sannerud, J.; Dyer, T. D.; Lehman, D. M.; Curran, J. E.; Duggirala, R.; Blangero, J.; Carmi, S.; Williams, A. L. Crossover interference and sex-specific genetic maps shape identical by descent sharing in close relatives. PLoS Genet. 2019, 15 (12), e1007979. DOI: 10.1371/journal.pgen.1007979.
  5. Housworth, E. A.; Stahl, F. W. Crossover interference in humans. Am. J. Hum. Genet. 2003, 73 (1), 188–197. DOI: 10.1086/376610.