254 подписчика

Оценка популяционной близости на основе IBD

27 февраля27 фев

6 мин

Я решил изучить ещё один способ анализа своего генетического образца - через модельную оценку генетического сходства с представителями различных современных популяций. Для этого я использовал инструмент PLINK, который позволяет вычислить показатель PI_HAT. Этот коэффициент оценивает долю генома, вероятно идентичную по происхождению (Identity-by-Descent, IBD), на основе наблюдаемого сходства генотипов (Identity-by-State, IBS). Иными словами, PI_HAT позволяет количественно оценить степень генетической близости между отдельными индивидами. В этой статье я покажу, к каким современным популяциям мой геном демонстрирует наибольшую степень близости, и попробую интерпретировать полученные результаты. Для сравнения я использовал набор современных популяций Восточной и Северо-Восточной Европы: различные региональные группы русских, украинцев и белорусов, а также балтийские и финно-угорские популяции (финны, эстонцы, карелы, вепсы, мордва и др.). Такой подбор позволяет оценить не только общую ге

Оглавление

Генетическая близость к популяциям
Генетическое сходство с отдельными индивидами
Анализ генетических дистанций в Vahaduo

Я решил изучить ещё один способ анализа своего генетического образца - через модельную оценку генетического сходства с представителями различных современных популяций.

Для этого я использовал инструмент PLINK, который позволяет вычислить показатель PI_HAT. Этот коэффициент оценивает долю генома, вероятно идентичную по происхождению (Identity-by-Descent, IBD), на основе наблюдаемого сходства генотипов (Identity-by-State, IBS). Иными словами, PI_HAT позволяет количественно оценить степень генетической близости между отдельными индивидами.

В этой статье я покажу, к каким современным популяциям мой геном демонстрирует наибольшую степень близости, и попробую интерпретировать полученные результаты.

Генетическая близость к популяциям

Для сравнения я использовал набор современных популяций Восточной и Северо-Восточной Европы: различные региональные группы русских, украинцев и белорусов, а также балтийские и финно-угорские популяции (финны, эстонцы, карелы, вепсы, мордва и др.).

Такой подбор позволяет оценить не только общую генетическую близость, но и более тонкие региональные различия между географически и исторически близкими популяциями.

Показатель PI_HAT - удобная статистическая мера, однако в числовом виде он довольно абстрактен: значения вроде 0.02 или 0.01 трудно интуитивно представить в «реальных» единицах.

Поэтому я дополнительно перевёл эти значения в центиморганы (cM). В данном случае это не результат прямого поиска IBD-сегментов, а альтернативная шкала представления той же величины - число, которое можно интерпретировать как эквивалентную суммарную длину общего генетического материала.

Важно подчеркнуть: это не точное измерение реальных сегментов, а удобная визуальная шкала для сравнительного анализа. Разницу между 3 cM и 0.5 cM гораздо проще осмыслить интуитивно, чем между 0.02 и 0.003.

В таблице каждая строка соответствует популяции, а столбцы означают:

Mean_PI_HAT - среднее значение PI_HAT между мной и индивидами данной популяции;
N_inds - число индивидов, участвовавших в сравнении;
Mean_cM - то же значение, представленное в пересчёте в эквивалентные cM.

При сортировке по убыванию видно, что наибольшая генетическая близость наблюдается с восточнославянскими популяциями и их ближайшими соседями:

украинцы (включая регион Белгородской области);
русские центральных регионов (Орёл, Тверь, Калуга);
белорусы;
далее - балтийские и северо-восточные финно-угорские группы.

Средние значения находятся в диапазоне примерно от 3.3 cM до 0.3 cM (в эквивалентной шкале).

Абсолютные величины невелики - и это ожидаемо. Я сравниваю себя не с родственниками, а со случайными индивидами из популяций. Поэтому речь идёт не о бытовом «родстве», а о слабом, распределённом по геному сигнале общего происхождения.

Тем не менее различия между популяциями систематичны:

восточнославянские группы демонстрируют более высокий средний сигнал;
балтийские - умеренный;
финно-угорские северные группы - более низкий.

Такой градиент отражает современную популяционную структуру региона и согласуется с историко-географическими ожиданиями.

Генетическое сходство с отдельными индивидами

После анализа средних значений по популяциям я перешёл к индивидуальному уровню - к сравнению с конкретными людьми.

Средние показатели хорошо отражают общую картину, однако внутри каждой популяции распределение значений неоднородно: одни индивиды оказываются ко мне ближе, другие - дальше. Поэтому имеет смысл посмотреть на верхнюю часть распределения - тех людей, с которыми наблюдается наиболее выраженное генетическое сходство.

В этом разделе я рассматриваю всех индивидов, для которых значение PI_HAT ≥ 0.02. Этот порог не имеет строгого биологического значения, а выбран как удобная граница для выделения верхней части распределения.

В таблице:

Population - популяция, к которой относится индивид;
Ind - конкретный образец;
PI_HAT - оценка доли общего генома;
cM - то же значение в эквивалентной шкале центиморганов.

В отличие от популяционных средних (где значения находились примерно в диапазоне 0.3–3 cM в пересчёте), на индивидуальном уровне верхние значения достигают примерно 3–6 cM.

Наибольшие показатели наблюдаются у:

представителей белорусской выборки;
русских северо-западных регионов (Псков);
украинских групп (включая Белгородский регион);
далее - у центрально-русских, балтийских и отдельных финно-угорских индивидов.

Важно отметить, что все индивиды с наиболее высокими значениями происходят из тех же восточноевропейских популяций, которые демонстрировали максимальные средние значения в предыдущем разделе. Это указывает на внутреннюю согласованность результатов.

Даже значения порядка 5–6 cM (в эквивалентной шкале) остаются очень небольшими. Они несопоставимы с показателями, характерными для родственников, и не свидетельствуют о недавнем общем предке.

Речь идёт о слабом, распределённом по геному сигнале общего происхождения - нормальном уровне вариации внутри близкородственных европейских популяций.

Переход к индивидуальному сравнению позволяет увидеть, что:

распределение сходства непрерывно, а не дискретно;
наиболее близкие ко мне геномы находятся именно в географически и исторически близких популяциях;
нет выраженных выбросов за пределы восточноевропейского генетического кластера.

Иными словами, индивидуальный анализ не меняет общую картину, а делает её более конкретной: внутри близких мне популяций действительно существуют отдельные люди, с которыми мой геном статистически совпадает сильнее всего.

Анализ генетических дистанций в Vahaduo

После выявления наиболее близких ко мне индивидов по метрике PI_HAT я решил дополнительно проверить, как они располагаются в пространстве генетических координат G25.

Для этого я взял топ-5 индивидов с наибольшим PI_HAT, для которых доступны координаты G25, и проанализировал их дистанции в Vahaduo.

Этот шаг нужен не для повторения IBD-анализа, а для его геометрической визуализации: если человек демонстрирует высокое IBD-сходство со мной, то логично ожидать, что он будет находиться в пределах того же регионального кластера и демонстрировать минимальные дистанции к тем же популяциям, которые показали высокие значения в предыдущих разделах.

Анализ дистанций показывает достаточно целостную картину.

Все индивиды, которые оказались наиболее близкими ко мне по IBD, уверенно располагаются внутри восточнославянско-балтийского генетического пространства. Их минимальные дистанции приходятся на русские центральные и северо-западные регионы, белорусские выборки, а также балтийские группы.

Важно не только то, что они близки к этим популяциям, но и то, чего мы не видим:

нет смещения в сторону Центральной или Южной Европы;
нет выхода в финно-угорский северный экстремум;
нет неожиданных «экзотических» кластеров.

Вместо резких скачков наблюдается плавный географический градиент - именно тот тип структуры, который характерен для Восточной Европы.

Если говорить проще: люди, с которыми я наиболее близок по распределённому IBD-сигналу, занимают в G25 ровно то положение, которое и ожидается исходя из их региональной принадлежности.

Итоговая интерпретация

IBD и G25 измеряют разные вещи:

IBD (через PI_HAT) фиксирует долю потенциально общего наследственного материала по всему геному;
G25 описывает положение генома в пространстве главных компонент - то есть его относительное место среди других европейских популяций.

Однако оба подхода сходятся в одном и том же выводе.

Мой геном статистически вписывается в восточнославянско-балтийскую зону Восточной Европы, без выраженных смещений к более удалённым регионам. IBD показывает это через распределённое сходство с конкретными людьми, G25 - через геометрическое положение в популяционном пространстве.

Именно совпадение этих двух независимых подходов делает итоговую картину устойчивой, а не случайной.