Найти в Дзене
Моя генеалогия

FST, PCA и qpAdm как методы анализа моего генетического образца

Продолжая свои эксперименты с генетическими данными, я наконец-то освоил инструменты AdmixTools и применил их для расчёта FST, анализа главных компонент (PCA) и моделирования древних примесей с помощью qpAdm. Эти методы позволяют рассматривать мой генетический образец не как набор чисел, а как часть общей картины генетического разнообразия, где каждая популяция занимает своё место, а степень их близости можно оценить количественно и визуально. AdmixTools - это программный пакет, разработанный для исследования родственных связей между популяциями, оценки генетических различий и выявления следов древних примесей. В основе его работы лежат так называемые f-статистики. Эти показатели считаются “строительными блоками” популяционной генетики и лежат в основе многих современных методов анализа древней ДНК. Используя возможности AdmixTools, я рассчитал FST между своим образцом и несколькими древними и современными популяциями, затем выполнил PCA-анализ, чтобы визуализировать взаимное расположе
Оглавление

Продолжая свои эксперименты с генетическими данными, я наконец-то освоил инструменты AdmixTools и применил их для расчёта FST, анализа главных компонент (PCA) и моделирования древних примесей с помощью qpAdm. Эти методы позволяют рассматривать мой генетический образец не как набор чисел, а как часть общей картины генетического разнообразия, где каждая популяция занимает своё место, а степень их близости можно оценить количественно и визуально.

AdmixTools - это программный пакет, разработанный для исследования родственных связей между популяциями, оценки генетических различий и выявления следов древних примесей. В основе его работы лежат так называемые f-статистики. Эти показатели считаются “строительными блоками” популяционной генетики и лежат в основе многих современных методов анализа древней ДНК.

Используя возможности AdmixTools, я рассчитал FST между своим образцом и несколькими древними и современными популяциями, затем выполнил PCA-анализ, чтобы визуализировать взаимное расположение этих групп в многомерном генетическом пространстве, а также применил qpAdm для построения моделей возможных древних компонентов в моём генетическом профиле. Такой комплексный подход позволяет увидеть моё генетическое происхождение одновременно с трёх сторон: дистанций между популяциями, их пространственной структуры и состава древних источников.

Анализ генетической дифференциации (FST)

FST (Fixation Index) - это статистический показатель, который используется для измерения степени генетических различий между популяциями. Проще говоря, он показывает, насколько сильно две группы людей (или образцов) отличаются по своему генетическому составу.

Значение FST варьируется от 0 до 1:

  • 0 означает, что популяции практически идентичны и не имеют генетических различий;
  • 1 - что они полностью разделены и не обмениваются генами.

Иногда встречаются отрицательные значения FST. Такие значения возникают из-за статистических флуктуаций, ограниченного числа SNP или особенностей метода расчёта. Отрицательные значения не имеют биологического смысла и интерпретируются как отсутствие статистически значимых различий между популяциями.

Результаты расчёта FST для современных популяций

В анализ были включены евразийские популяции, охватывающие широкий спектр Восточной, Северной, Южной и Западной Европы, а также Кавказ и прилегающие регионы. Такой набор выборок позволяет определить положение моего образца в контексте современного генетического разнообразия и выявить наиболее близкие к нему группы.

-2

Наименьшие (а иногда и отрицательные) значения FST наблюдаются при сравнении с русскими (различные регионы, включая Архангельскую, Смоленскую и Рязанскую области), а также с белорусами и украинцами. Это указывает на высокий уровень генетической общности между моим образцом и восточнославянскими популяциями.

Немного более высокие значения FST отмечаются у прибалтийских и центральноевропейских групп - литовцев, эстонцев, поляков и венгров, что отражает географически ожидаемые небольшие различия. Ещё более выраженные различия наблюдаются у южноевропейских и кавказских популяций - итальянцев, греков, осетин и грузин, а также у татар и турок, что связано с наличием у них южных и восточных компонентов происхождения.

Таким образом, результаты показывают, что мой образец наиболее близок к восточнославянским популяциям, с второстепенным сходством с прибалтийскими и центральноевропейскими группами, что согласуется с историей формирования населения Восточной Европы.

Результаты расчёта FST для древних популяций

Чтобы понять, какие древние генетические компоненты наиболее близки моему образцу, я выполнил расчёт FST с рядом древних популяций, относящихся к эпохе ранней бронзы (EBA) и представленных в базе данных Yamnaya. Эти группы охватывают различные регионы степного и прикаспийского ареала - от юга России и Украины до Кавказа и Казахстана.

Выбор именно этих популяций обусловлен их ключевой ролью в формировании генетического ландшафта Евразии: культуры ямного круга считаются одним из основных источников компонентов, распространившихся в Европе и Центральной Азии в результате миграций эпохи бронзы.

-3

Результаты показывают, что наименьшее значение FST (≈0.0068) наблюдается при сравнении с популяцией Russia_Samara_EBA_Yamnaya, что указывает на наибольшую близость моего образца к самарским ямным популяциям. Более высокие значения у кавказских и восточных ямных групп (например, Kazakhstan_EBA_Yamnaya или Ukraine_EBA_Yamnaya) отражают большую генетическую дистанцию.

Таким образом, мой образец демонстрирует наибольшее сходство с центральными и восточноевропейскими вариантами ямной культуры, тогда как с кавказскими и восточными популяциями ямного круга различия более заметны. Это может указывать на сохранение в моём генетическом профиле компонентов, связанных со степным ямным субстратом, характерным для восточноевропейского региона.

Анализ главных компонент (PCA)

PCA (Principal Component Analysis) - это метод статистического анализа, который позволяет свести большое количество генетических данных к нескольким измерениям, чтобы наглядно показать, как популяции и отдельные образцы соотносятся друг с другом.

В популяционной генетике PCA используется для визуализации генетической структуры: каждая точка на графике представляет индивидуальный образец или популяцию, а расстояние между точками отражает степень генетического различия.

Если FST количественно оценивает различия между группами, то PCA позволяет увидеть эти различия визуально - выделяя кластеры популяций и плавные переходы между ними.

Результаты PCA для современных популяций

В анализ PCA были включены те же современные популяции, что и при расчёте FST, что позволяет напрямую сопоставить визуальную картину генетических связей с количественными результатами различий между группами.

-4

На PCA-графике каждая точка представляет отдельного индивида или популяцию из набора Human Origins. Первые две главные компоненты (PC1 и PC2) объясняют основную часть генетической вариации и чётко разделяют крупные кластеры - западноевропейские, южноевропейские, восточноевропейские и уральско-финские группы.

Мой образец (MyPop) расположен в центральной части восточноевропейского кластера, рядом с выборками русских, белорусов и украинцев. Такое положение указывает на выраженное генетическое сходство с восточнославянскими популяциями и полностью согласуется с результатами FST, показавшими минимальные различия с этими группами.

Таким образом, PCA-визуализация подтверждает, что мой образец занимает центральное положение в восточноевропейском генетическом континууме, без выраженного смещения к южным, северным или западноевропейским кластерам.

Моделирование древних компонентов (qpAdm)

qpAdm - это метод из пакета AdmixTools, который позволяет количественно оценить, из каких древних популяций мог состоять генетический профиль человека или группы. В отличие от PCA и FST, которые показывают общую структуру и степень различий между популяциями, qpAdm делает следующий шаг - пытается определить возможные источники происхождения и их доли в геноме.

Метод сравнивает целевую популяцию (в данном случае - мой образец) с набором древних «источников», а также с группой аутгрупп, которые помогают корректно отделить реальные сигналы admixture от шумов и фоновых сходств.

Проще говоря, qpAdm отвечает на вопрос: «Из каких древних компонентов и в каких пропорциях может быть составлен мой генетический профиль?»

Этот подход позволяет перейти от визуального и дистанционного анализа к конкретному моделированию происхождения, что делает картину генетического прошлого более полной.

Результаты qpAdm для моего генетического образца

Для оценки возможных древних источников моего генетического профиля я протестировал ряд моделей qpAdm, включавших популяции культуры шнуровой керамики (Corded Ware), ямного круга (Yamnaya), западноевропейских мезолитических охотников-собирателей (WHG), анатолийских неолитических земледельцев и восточносибирских бронзовых групп.

Несмотря на большое число протестированных вариантов, их результаты оказались удивительно согласованными. Все модели показали сходные пропорции основных компонентов, отличаясь между собой лишь незначительно в пределах статистической погрешности.

-5

Наиболее устойчивые результаты демонстрируют модели, основанные на популяциях культуры шнуровой керамики. Лучшая из них - модель с использованием Estonia_CordedWare - показывает, что примерно 65% моего генетического профиля восходит к этой группе. Дополнительный вклад составляют около 8–9% мезолитической западноевропейской компоненты (WHG) и 23–24% анатолийской неолитической компоненты, связанной с ранними земледельцами Анатолии. Небольшая доля в размере 2–3% связана с восточносибирским компонентом, хотя эти значения могут находиться на границе статистического шума.

-6

Для сравнения были протестированы модели с использованием различных популяций ямного круга. Наиболее показательна модель Russia_Samara_EBA_Yamnaya, согласно которой ямный компонент составляет около 44%, а остальная часть распределяется между WHG и анатолийскими земледельцами. Такие пропорции хорошо согласуются с современной научной моделью происхождения Corded Ware как смеси ямных популяций, мезолитических охотников и ранних земледельцев.

Таким образом, qpAdm подтверждает, что мой генетический профиль наиболее близок к популяциям шнуровой керамики, которые являются ключевым звеном в формировании восточноевропейского и центральноевропейского генетического ландшафта эпохи бронзы. Эти результаты согласуются с выводами PCA и FST и дают количественное представление о древних компонентах моего происхождения.

Итоги анализа

В рамках проведённой работы я применил методы FST, PCA и qpAdm для анализа своего генетического образца относительно как современных, так и древних популяций. Эти подходы дополняют друг друга: FST позволяет количественно оценить степень генетических различий, PCA визуализирует положение моего образца в контексте популяционной структуры, а qpAdm даёт возможность смоделировать состав древних компонентов, лежащих в основе моего происхождения.

Результаты FST и PCA показали, что мой генетический профиль наиболее близок к восточнославянским популяциям и занимает центральное положение внутри восточноевропейского генетического континуума. Модели qpAdm подтвердили эту картину, указав на преобладающий вклад популяций культуры шнуровой керамики (Corded Ware), сформированных на основе ямных групп степной зоны и смешанных с мезолитическими охотниками-собирателями и ранними земледельцами Анатолии.

Таким образом, интеграция трёх методов позволяет реконструировать как современное положение моего образца среди популяций, так и глубинные слои его древнего происхождения. Полученные результаты согласуются между собой и демонстрируют, как инструменты популяционной генетики помогают связать индивидуальные данные с историко-эволюционной динамикой формирования населения Евразии.