Найти тему
YSEQ.ru

Введение в мир ДНК тестов

Оглавление

Кто из нас отказался бы от возможности заглянуть в глубокую древность и узнать поближе наших далеких предков? Оказывается, это возможно и для этого машина времени не нужна. Секрет заложен в нашем ДНК.

Методами традиционной генеалогии, опираясь только на письменные источники, ответить на такие фундаментальные вопрос невозможно. Уж очень близоруки эти источники. Задача еще больше усложняется в регионах, где не было своей письменной традиции.

Расшифровка человеческого генома открыло новые, ранее недоступные инструменты. Оказалось, что в нашем ДНК зафиксирована вся история вида. Геном — это наш биологически паспорт. В отличии от бумажных документов геном не может быть утерян или подделан.

С началом 21 века распространили коммерческие ДНК тесты. У всех желающих появилась возможность заглянуть в глубь веков. Миллионы людей уже окунулись в этот новый мир. В интернете можно найти немало материалов про различные аспекты ДНК тестов. Есть и книги посвященные ДНК тестам. Однако для большинства все еще сложно разобраться в видах ДНК тестов, понять и интерпретировать результаты.

Немного теории

Геном состоит из 46 парных хромосом. 22 пары передаются и отца от матери, по одной от каждого родителя. Эти 44 хромосомы именуются аутосомами. Они не зависят от пола. 23я пара хромосом определяет пол. Логично, что они называются половыми. У женщин половые хромосомы представлены только двумя Х-хромосомами. По одному от каждого родителя. Одна из них остается активной, а вторая деактивируется. У мужчин комбинация половых хромосом состоит из X и Y. X передается от матери, а Y только от отца. Это очень важно, стоит особо отметить. Набор из 46 хромосом содержится в ядре каждой клетки организма.

В наших клетках содержатся также, намного меньшие по размеру митохондрии. Митохондрии это захваченные клеткой в глубокой древности бактерии. У них тоже есть свой набор ДНК (мт-ДНК). Мт-ДНК передаются детям только от матери. Однако в отличии от У-хромосомы мт-ДНК матери получают и дочери, и сыновья. Получается, что ДНК тесты мужчин более информативны. Протестировав мужчину, мы Можем получить наряду со всем, что есть у женщины еще и информацию по Y линии

У Генома есть свой алфавит. В нем всего 4 буквы. Буквы эти образованы от названия химических соединений - нуклеотидов. Вдаваться в химию и вникать в особенности химических формул мы не будем. Для понимания основ можно просто запомнить названия нуклеотидов. Аденин (А), Гуанин (Г). Цитозин (Ц) и Тимин (Т). Или по английский A, T, G, С. Из этих 4х буква состоят весь геном. Геном состоит из примерно около 30 тыс. генов (известных) и больших участков не кодирующих. Эти участки иногда называют мусорной ДНК. Именно в этой части ДНК находится чаще всего наиболее значимые для генеалогии части.

Основной набор генов содержится в аутосомах (неполовые хромосомы). Именно там определяются ключевые характеристики организма. Y-хромосома в этом смысле мало на что влияет. Весь геном состоит из примерно Зх миллиардов букв (пар оснований нуклеотидов). На долю Y-хромосомы приходится около 2х % (60 млн. букв). Для сравнения, мт-ДНК более чем в 1000 раз меньше, чем Y-хромосома.

Для того чтобы прочитать содержимое генома надо пройти процедуру ДНК тестирования. Для этого используется специальное устройство - секвенатор. Самый полный вид ДНК тестов – полногеномный тест. По английский - WGS (Whole Genome Sequencing). При таком виде теста анализируется весь геном. По результатам WGS теста секвенатор выдает электронную копию генома в специальном формате (bam файл). Ваm файл обычно большого размера 30-100 гигабайт. Это цифровой слепок ДНК.

Результаты WGS тестов можно использовать для различных целей, в том числе медицинских. С точки зрения генеалогии ключевая информация содержится в Y-хромосоме, в меньшей степени в мт-ДНК и аутосомах.

На самом деле этот короткий экскурс в теорию не обязателен, для того чтобы научиться интерпретировать результаты тестов. Гораздо важнее понимать, что такое гаплогруппа. снип и гаплодрево. И научится читать гаплодрева. Это дает возможность ориентироваться, сравнивать.

Снипы ключ к Y-хромосоме

Исследователи при сравнении результатов ДНК тестов современных людей, а также древних захоронений, выявили, что все мужчины имеют одного древнего предка. Общий предок всех мужчин по прямой мужской линии получил название Y-хромосомного Адама. Расчетное время жизни Y- хромосомного Адама +- 235 тыс. лет назад. Аналогично была выявлена и митохондриальная Ева. Праматерь человечества. Расчетное время жизни +- 200 тыс. лет назад.

Основной метод выявления родства по Y-хромосоме - определением специфических мутации в последовательности нуклеотидов (букв) из которых состоит Y-хромосома. Научное название таких мутаций - однонуклеотидный полиморфизм. По английский звучит как Single Nucleotide Polymorphism или сокращенно SNP. На русском языке часто используется термин снип.

Снип это изменение одной буквы из 4х (нуклеотида) на другую. Потомство получается от родителей перемешанный набор генов по аутосомам, мт-ДНК от матери и Y-хромосому от отца к сыну. При такой передачи в случайном порядке образуются ошибки копирования. Это и есть Мутации или снипы. Возникают они очень редко. Статистически выявлено, что снип в Y- хромосоме образуется в среднем 1 раз в 144 года. Это не догма, редко бывают резкие отклонения, но на больших цифрах это значение усредняется и стремится к обозначенной цифре.

Результаты ДНК тестов выявили, что у всех мужчин есть большое число общих снипов. Это самые древние мутации, которые передались еще со времен Y-хромосомного Адама. Однако за прошедшие сотни тыс. лет продолжали образовываться все новые и новые снипы. Этот механизм никогда не останавливается. Как выстроить иерархию человеческую, сложившуюся за такой большой промежуток времени? Логичное решение объединить более близкие между собой общности в группы, гаплогруппы.

Гаплогруппы

Потомки Y-хромосомного Адама со временем разошлись по всей планете. В зависимости от наличия совпадающих снипов, мужчин определяют к одной из примерно 20 гаплогрупп. Каждая гаплогруппа обозначается латинской буквой от А до Т. Самый верхний уровень гаплогрупп называют кладами. Более вложенные уровни субкладами или ветками. По сути строгих правил именования нет и часто используются все они как синонимы.

Основная задача генеалогических ДнК тестов выявить ближайших родственников. Бывают случаи, когда ближайшие выявленные родственники по Y-хромосоме находятся на расстоянии десятков тысяч лет. Расстояние это измеряется с помощью понятия ближайший общий предок или последний общий предок (англ. MRCA или TMRCA).

В самом крайнем случае TMRCA будет равен расчетному времени жизни Y-хромосомного Адама, +- 235 тыс. лет, но цифра может быть и очень маленькой, вплоть до 50 лет. Для расчета TMRCA секвенированная последовательность конкретных мужчин сравнивается с эталонной версией генома. По-другому такой геном называется референсным. В идеале было бы лучше иметь возможно сравнивать наши геномы с Y-хромосомным Адамом. Однако, учитывая, что это невозможно, научное сообщество выбрало геном случайно выбранного мужчины в качестве эталонного.

Для выявления снипов прочитанную последовательность Y-хромосомы сравнивается с референсом и там, где обнаруживаются несовпадения — это и будут снипы. У близких родственников, например, у родных братьев или у отца с сыном количество отличающихся снипов будет скорее всего равным нулю либо, очень редко, одному.

Полученные снипы надо где-то записывать. Для этого исследователи ведут общую базу всех выявленных разными тестирующими лабораториями снипов. По каждому снипу описывается какая версия референса использовалась, какой адрес у снипа итд. Адрес — это координата в Y-хромосоме.

Для попадания в базу снипов нужно, чтобы снипы определились хотя бы у двоих протестированных. Если снип есть только у одного из протестированных, такой снип называют приватным. Чем больше людей тестируется, тем меньше приватных снипов остаются в базах.

Количество приватных снипов имеет ключевое значения для подсчета TMRCA. Чем больше у вас приватных снипов, тем дальше от вас ближайшие совпаденцы по Y-хромосоме.

Снипы сваленные в одну большую кучу не имеют практической ценности. Для их систематизации используются специальные У-древа. На Y- древе снипы размещаются иерархически в виде древа с исходным корнем и веток все более и более разрастающихся. Большая часть из сотен тысяч выявленных снипов уже размещена на Y-древах. На сегодняшний день самое удобное Y-древо - Yfull. В дополнении к удобству Yfull обладает еще одним важным преимуществом. Только они рассчитывают TMRCA и каждый кто загрузит свои данные на этот сайт, сможет получить информацию о ближайших родственниках, выраженную в цифровом значении. Это намного удобнее чем считать количество приватных снипов.

Корнем древа Yfull выступает Y-хромосомный Адам. От него идут несколько стволов, от них в свою очередь идут свои ветки, и так на многие вложенные уровни. Гаплогруппы можно представить в виде стволов такого древа. Всё более свежие ветки, идущие от общего ствола гаплогруппы являются потомками одного мужчины.

Для образования ветки нужен как минимум один снип. Бывают ветки, которые состоят из огромного числа снипов. Такое бывает, когда популяция жила долгое время изолированно от остального человечества. У современных людей из этой изолированной популяции между собой мало отличающихся снипов, а с другими популяциями 100 и даже тысячи снипов. В этом случае на древе появится всего одна новая ветка. Если со временем появятся промежуточные звенья, посредники между изолированной популяцией и остальным человечеством, тогда возникнет еще новый уровень итд.

Превратить свои приватные снипы в именованные не сложно, для это достаточно протестировать близкого родственника. Однако самое интересное это найти тех, с кем у вас есть не очень большое число отличающихся снипов.

Полный Y тест

Для выявления близкого родства недостаточно знать к какому кладу гаплогруппы вы относитесь. Это знание дает информацию, что у вас с остальными представителями конкретной гаплогруппы жил общий предок 20- 30 тыс. лет назад. Необходимо выявить самый глубокий уровень, самую свежую ветку. Сделать это можно только полностью прочитав Y-хромосому. Важно не просто обнаружить снипы которые уже у других были протестированы, но и выявить приватные снипы. А найти их можно только полным секвенированием Y-хромосомы. Случайные мутации найти случайной выборкой невозможно.

Лучший вариант ДНК теста —полный геном. Туда включается уже все виды существующих тестов. Стоимость начинается от 200$ и выше. Чаще всего цена приближается к 400$.

Полногеномное исследование можно пройти в:

- Германской лаборатории YSEQ (WGS+). Стоимость фиксированная - 400$. По состоянию на Июнь 2022 г. есть проблемы с оплатой. Напрямую оплатить Российскими картами нельзя. Есть альтернативные варианты оплаты. Тесты доступны к отправке в РФ. Ранее были замечены проблемы с качество полногеномного теста, сейчас они решения. WGS+ соответствует высоким стандартам качества.

- Американской (Китайской) компании Nebula Genomics. По состоянию на Июнь 2022 г. есть проблемы с оплатой и отправкой. Решается через использование посредников. Стоимость на скидках около 280$. Сама процедура секвенирования в Китае. Хорошее качество, но есть проблемы с коммуникацией.

- Итальянской компании Dante Labs. Стоимость от 200 до 500$. Есть проблемы с качеством и обратной связью. Рекомендуется к покупке только при больших скидках (+-150-170$). По состоянию на Июнь 2022 г. есть проблемы с оплатой и отправкой.

Другой вариант полного теста Y-хромосомы американская компания FTDNA и их продукт BigY. Это первый массовый продукт, вышедший на рынок. Количественно доминирует. При этом он уже считается устаревшим, в сравнении с полногеномпымп тестами, однако вис еще, в целом, подходит для генеалогии. Стоимость на максимальных скидках – 380$+.

С BigY есть один важный нюанс. FTDNA бесплатно не выдают bаm файл. Вместо этого они дают возможность бесплатно скачать VCF файл. VCF это описание Ват файла. В нем описываются по каким позициям нашлись снипы, как они называются, как хорошо они прочитаны итд. В целом этой информации достаточно для размещения на древо Yfull, однако все же иногда в bаm файле Yfull находят дополнительную информацию. Стоит это учитывать. Стоимость покупки bam файла 100$. Во всех известных вариантах полного генома bam файл обычно включается по умолчанию. Иногда вместо bam выдают его сжатую версию – cram. Перевести cram в bam не составляет проблем.

Маркерные Y тесты

У полных Y-тестов есть только один существенных минус. Относительно высокая стоимость. Те, кто не готов к таким тратам покупают более бюджетные и гораздо менее детальные маркерные тресты.

В Y-хромосоме есть участки с конкретными адресами, в которых повторяется определенная, короткая последовательность из букв. Как заезженная пластинка. Количество повторов на участках может меняться в произвольном порядке, как в сторону увеличения, так и в сторону уменьшения. Такие участки называют короткими тандемными повторами. По английский Short Tandem Repeat или STR.

Проверяют обычно от 12 до 111 таких участков. Результаты заносятся в таблицу. У каждого маркера есть свое название, например, DYS393 и кол-во повторов. DYS393 = 12 или DYS393 = 10 итд.

Набор Y-STR маркеров называется гаплотипом. Самый распространенные наборы гаплотипов FTDNA Y12, Y37, Y67 и Y111. В Y37 гаплотип входит Y12 итд.

Чем больший гаплотип сравнивается, тем более точные результаты можно получить. Если у двух Y12 гаплотипов все маркеры совпадают, это могут быть как родные братья, так и очень далекие «родственники», вплоть до 10 тыс. лет. Поэтому Y12 наборы не рекомендуются к заказу. Их можно использовать для подтверждения родства в случае, если фамилия совпадет или есть генеалогические сведения об общем происхождении. Однако для этого есть более точные и дешевые способы.

При сравнении YЗ7 гаплотипов обычно, при близком родстве, либо маркеры полностью совпадают, либо отличаются незначительно. Y37 набор оптимальный по соотношению результат\цена.

Маркерные тесты удобны тем, что для анализа не нужно считывать всю У-хромосому. Достаточно проверить определенное количество участков, которые есть у всех мужчин. Минус в том, что 100% достоверно предсказать снип при таком тесте невозможно. Снип можно выявить только физически его «увидев». Для предсказания снипов по маркерам используются предсказатели гаплогрупп. Самый популярный из них Nevgen. Этот инструмент дает вероятностную оценку принадлежности к! определенной гаплогруппе.

Дополнением к маркерному тесту может служить точечный SNP тест. Такой тест со 100% вероятностью показывает наличие или отсутствие конкретного снипа. В отличии от полных тестов У хромосомы при которых считывается вся У хромосома (на самом деле не вся, а самая стабильная часть, но не будем усложнять), точечным SNP тестом считывается только маленький участок из 500 нуклеотидов. Этого с избытком достаточно, чтобы проверит потенциальный снип по конкретному адресу. Каждый такой тест стоит минимум 18$ (в YSEQ).

Проверять наобум все возможные снипы таким способом очень глупое и дорогое занятие. Однако SNP тестом можно подтвердить предсказанные по маркерам результаты. Кроме того, таким тестом можно проверить родство с однофамильцами, предполагаемыми родственниками итд. Это будет заметно дешевле, чем покупать маркерные тесты.

Ключевой минус маркерных тестов — это их ненадежность. Маркеры могут менять в любую сторону и порой очень далекие между собой люди получают похожие цифры по многим маркерам. Это создает иллюзию их близкого происхождения.

Таким образом ключевая разница между продвинутыми тестами Y- хромосомы и поверхностными (маркерные и SNP тесты) заключается в невозможности загрузить данные поверхностных тестов на Y древо. Без этого получить максимально возможные данные не получится. Также невозможно иным способ найти приватные снипы. Это возможно только при полном секвенировании Y-хромосомы. Дополнительный плюс размещения результатов на древе заключается в том, что результаты будут пожизненно обновляться. При появлении новых результатов тестов будут образовываться все новые и новые ветки.

Мт-ДНК — это заметно более упрощенный аналог Y тестов. Ввиду маленького размера мт-ДНК, точность предсказаний по ним заметно ниже. С другой стороны мт-ДНК гораздо проще выделить. В очень многих древних захоронениях выделены только мт-ДНК.

Мито гаплогруппы тоже организованы по принципу Y гаплогрупп. Называются тоже латинскими буквами. Еще один существенный минус в том, что проследить конкретную фамилию по мт-ДНК тестами почти невозможно, ввиду постоянной смены фамилий у женщин.

Отдельный мт-ДНК тест стоит в районе 120-130$. В полногеномных тестах мт-ДНК уже включен.

Аутосомные ДНК тесты

Аутосомные (atDNA) тесты в корне отличаются от Y и мито тестов. Аутосомные тесты работают на относительно коротких дистанциях - 100-200 лет. При сравнении результатов матери или отца со своими детьми общая цепочка совпадающих ДНК будет в районе 50%, У тети\дяди с племянниками +- 20-25%. Каждое поколение примерно в 2 раза уменьшается размер совпадающих участков ДНК. Размер этих участков обычно выражается в сМ (сентиморганы). 60 сМ = +- 1% ДНК.

Определить по какой линии, отцовской или материнской можно только после загрузки дополнительных тестов родственников.

Для аутосомных тестов очень важное значение имеет размер базы. Самые крупные базы у Американских 23andme, Ancestry. Попасть в их базу можно только купив их тест. Myheritage и FTDNA тоже обладают значительными базами. Myheritage и FTDNA позволяют загружать чужие тесты в свою базу. Из Российских компаний заслуживает внимание Генотек. У них база активно пополняется. По состоянию на июнь 2022 г. загрузить в базу Генотек можно тесты из 23andme, FTDNA, Myheritage. Так же на все эти сайты (кроме 23andme и Ancestry) можно загрузить аутосомные файлы, выделенные из полногеномных тестов.

23andme и Генотек обладают дополнительным плюсом. Они выявляют Y и Мито гаплогруппы. Показываются клады гаплогрупп верхнего уровне. В лучшем случае с глубиной 4-5 тыс. лет. По аутосомным данным других компаний (кроме FTDNA) тоже можно узнать гаплогруппы. FTDNA единственная компания, которая вырезает данные по Y и Мито.

Аутосомные тесты основаны на специальных чипах, в которых зашит перечень снипов по каждой хромосоме. Перечень этот состоит из 600-700 тыс. снипов. В то же время в полный геном входит почти 3 млрд, позиций. Количество возможных снипов во много раз больше. В том числе снипы которые будут.