279 подписчиков

Эталонный геном - это...

20 февраля20 фев

9 мин

Ранее мы уже упоминали, что исследуемые фрагменты ДНК сопоставляют с эталонными данными. Теперь давайте разберёмся глубже: откуда берутся эти эталоны и референсы, почему они считаются «точкой отсчёта» и зачем без такого сравнения генетический анализ теряет смысл. Любой генетический анализ похож на расследование. У нас есть следы (фрагменты ДНК), есть методы их «прочтения» (секвенирование), есть вычисления (биоинформатика). Но есть ещё одна вещь, без которой расследование превращается в гадание. Это эталон, то есть то, с чем мы сравниваем результат. В медицине мы привыкли к референсам: нормальный гемоглобин, нормальная глюкоза, нормальные ферменты. В генетике всё устроено сложнее. Здесь «норма» не равна «одинаково у всех», потому что геном человека вариативен. Поэтому эталонные результаты в генетике это не одна цифра и не один «идеальный» геном. Это целая система: референсный геном, эталонные базы вариантов, контрольные выборки, статистические распределения, контроль качества лаборатори

Оглавление

Что такое «эталонный результат» в генетике и почему он не один
Референсный геном и эталонные базы: почему «одна и та же мутация» бывает разной
Эталонные профили в НИПТ: как строят «норму» из миллионов фрагментов ДНК

Любой генетический анализ похож на расследование. У нас есть следы (фрагменты ДНК), есть методы их «прочтения» (секвенирование), есть вычисления (биоинформатика). Но есть ещё одна вещь, без которой расследование превращается в гадание. Это эталон, то есть то, с чем мы сравниваем результат.

В медицине мы привыкли к референсам: нормальный гемоглобин, нормальная глюкоза, нормальные ферменты. В генетике всё устроено сложнее. Здесь «норма» не равна «одинаково у всех», потому что геном человека вариативен. Поэтому эталонные результаты в генетике это не одна цифра и не один «идеальный» геном. Это целая система: референсный геном, эталонные базы вариантов, контрольные выборки, статистические распределения, контроль качества лаборатории и алгоритмов.

Что такое «эталонный результат» в генетике и почему он не один

Когда мы говорим «эталон», часто представляем идеальную линейку: приложил и измерил. В генетике линейки нет. Есть несколько разных эталонов, и каждый отвечает на свой вопрос.

Эталон 1: референсный геном.
Это «карта», на которую накладывают прочитанные фрагменты ДНК. В мире чаще всего используют сборки GRCh37 или GRCh38. Это не геном одного человека, а согласованная последовательность, собранная из данных многих источников. Она служит координатной системой: хромосома 21, позиция такая-то.

Эталон 2: эталон частот.
Даже если мы нашли отличие от референса, это ещё ничего не значит. Нужен ответ на вопрос: насколько часто такой вариант встречается у здоровых людей. Для этого существуют популяционные базы частот, где варианты ранжируются по распространённости. На практике это помогает отличить редкое потенциально значимое изменение от «обычной человеческой вариативности».

Эталон 3: эталон клинической интерпретации.
Одни и те же изменения могут иметь разный смысл в зависимости от доказательной базы. Поэтому в медицинской генетике используют классификацию вариантов по клинической значимости. Условно: доброкачественный, вероятно доброкачественный, вариант неопределённого значения, вероятно патогенный, патогенный. Для этой классификации существуют международные рекомендации и критерии качества доказательств.

Эталон 4: эталон измерения для конкретного теста.
Это особенно важно для НИПТ https://genomed.ru/s-nauchnoj-tochki-zreniya/

НИПТ часто отвечает не на вопрос «какая буква в этом месте», а на вопрос «есть ли статистически значимое отклонение в количестве фрагментов, относящихся к конкретной хромосоме или участку». Значит, эталоном становится распределение показателей у большой группы беременностей без выявляемых хромосомных нарушений. И это распределение нужно построить, проверить, регулярно обновлять.

Главная мысль простая: эталон в генетике многослойный. Если убрать хотя бы один слой, точность результата падает, а интерпретация превращается в спор.

Референсный геном и эталонные базы: почему «одна и та же мутация» бывает разной

Начнём с базы: выравнивание ридов на референсный геном. Секвенатор выдаёт миллионы коротких фрагментов. Алгоритм должен определить, куда в геноме «приклеить» каждый фрагмент. Для этого он использует референсную последовательность как карту дорог.

Но почему один и тот же вариант может быть «виден» по-разному?

Причина 1: повторяющиеся участки генома.
В геноме человека много сегментов, похожих друг на друга. Это как одинаковые кварталы в городе. Короткий фрагмент может подходить в несколько мест сразу. Тогда программа выравнивания либо выбирает наиболее вероятное место, либо помечает фрагмент как неоднозначный. Для НИПТ это критично, потому что «лишние» риды, попавшие не туда, изменяют подсчёт по хромосомам.

Причина 2: различия между сборками референса.
GRCh37 и GRCh38 отличаются в деталях: уточнены участки, закрыты пробелы, добавлены альтернативные континги. Это может менять координаты и даже интерпретацию отдельных регионов. В клинической практике лаборатории обычно фиксируют одну сборку и строят весь пайплайн вокруг неё, чтобы результаты были сопоставимы.

Причина 3: человеческая вариативность.
Референс не равен «норме». Многие люди имеют отличия от референса и при этом абсолютно здоровы. Например, вариант может быть частым в одной популяции и редким в другой. Именно поэтому эталонные базы частот важны не меньше, чем сам референс.

Интересный факт из практики популяционной генетики: у каждого человека есть тысячи вариантов, отличающихся от референса, и это нормально. Более того, у любого из нас можно найти варианты, которые выглядят «страшно» без контекста, но оказываются распространёнными и клинически нейтральными.

Поэтому научно корректная генетика всегда работает так:

нашли отличие от референса
проверили, насколько это частый вариант
оценили доказательность связи с заболеванием
учли фенотип и семейный анамнез

И только потом делают вывод.

Эталонные профили в НИПТ: как строят «норму» из миллионов фрагментов ДНК

НИПТ особенно зависим от эталонов, потому что это статистический тест на основе малых сигналов. В крови беременной циркулирует смесь фрагментов ДНК, большая часть из которых материнские, а меньшая часть плацентарного происхождения. Доля плацентарной ДНК называется фетальной фракцией, и она обычно находится в диапазоне нескольких процентов и выше. Чем ниже фетальная фракция, тем слабее сигнал.

Как эталон появляется на практике

Шаг 1. Получаем риды и выравниваем на референс.
Каждому риду присваиваются координаты: хромосома и позиция.

Шаг 2. Считаем покрытие.
Дальше геном делят на окна, например по 50–100 килобаз или другими шагами, и считают, сколько ридов попало в каждое окно или на каждую хромосому. Для классических анеуплоидий часто важен суммарный счёт по хромосомам 21, 18, 13.

Шаг 3. Нормализуем данные.
Сырые подсчёты нельзя сравнивать напрямую. Есть систематические искажения.

Один из главных источников искажений называется GC bias. Участки генома с разным содержанием G и C могут секвенироваться неравномерно. Если не корректировать это, то «избыточное количество» ридов может оказаться не биологией, а особенностью химии или прибора.

Поэтому лаборатории применяют нормализацию: выравнивают распределения, корректируют GC зависимость, убирают технические артефакты, учитывают длину фрагментов.

Интересный факт: характерная длина cfDNA часто около 166 пар оснований. Это связано с тем, как ДНК упакована вокруг нуклеосом. Этот «нуклеосомный отпечаток» используют не только для контроля качества, но иногда и для оценки вклада плацентарной фракции.

Шаг 4. Сравниваем с эталонной выборкой и считаем статистику.
Вот здесь возникает эталонный результат.

Для каждой хромосомы строят распределение показателей по большой группе беременностей, где не выявлено соответствующих отклонений. Затем для нового образца вычисляют отклонение от этой нормы. Самая известная мера это Z score. По сути, это ответ на вопрос: насколько далеко текущий образец ушёл от среднего значения в единицах стандартного отклонения.

Если говорить человеческим языком:
мы спрашиваем, выглядит ли количество фрагментов от хромосомы 21 как у большинства, или это выбивается из типичного диапазона настолько, что похоже на дополнительную копию.

Научный пример, понятный без формул

Представьте 10 000 «нормальных» измерений доли ридов, приходящихся на 21-ю хромосому, после всех поправок и нормализаций. У них есть среднее значение и естественный разброс. Если новый образец попадает туда же, риск невысок. Если значение резко выше и выходит за статистически ожидаемый диапазон, тест помечает результат как повышенный риск.

В расширенных вариантах НИПТ всё становится ещё интереснее. Для микроделеций и микродупликаций система смотрит не только на целую хромосому, а на участки. Там используют алгоритмы сегментации: они ищут «ступеньки» в покрытии, то есть последовательные окна, где счёт ридов стабильно ниже или выше, чем ожидается по эталону.

Почему эталон надо обновлять

Эталонная база не высечена в камне. Меняются реагенты, платформы, версии программ, параметры фильтрации. Даже то, что называют batch effect, эффект партии, может смещать распределения.

Поэтому в реальной науке и в хорошей практике эталоны:

строят на достаточно большой выборке
проверяют на контрольных образцах
отслеживают стабильность метрик во времени
используют внутренние контроли качества
участвуют во внешних программах оценки качества, где лаборатории сравнивают результаты между собой

Если лаборатория не контролирует эталон, то результат начинает отражать не биологию, а технологию.

Когда эталон ошибается: биология, статистика и честные ограничения

Эталонная система делает генетический тест сильнее, но не делает его непогрешимым. И это важно знать, потому что научная грамотность начинается не с обещаний 100 процентов, а с понимания источников ошибок.

1. Плацентарный мозаицизм

НИПТ анализирует ДНК плацентарного происхождения. В большинстве случаев плацента отражает геном плода, но иногда есть мозаицизм: часть клеток плаценты имеет одно число хромосом, часть другое. Тогда НИПТ может показать повышенный риск, хотя у плода всё иначе, или наоборот. Это биологический предел метода, а не ошибка алгоритма.

2. Низкая фетальная фракция

Если плацентарной ДНК мало, сигнал слабый. Тогда статистика становится менее устойчивой. Именно поэтому в отчётах часто указывают фетальную фракцию и условия, при которых результат может быть неинформативным.

3. Индивидуальные особенности генома матери

У матери могут быть собственные хромосомные вариации, мозаицизм, копийные изменения, которые влияют на распределение ридов. Эталон «среднего человека» здесь не всегда подходит. Поэтому современные алгоритмы строят дополнительные проверки и фильтры, но полностью убрать этот фактор невозможно.

4. Пограничные значения и статистическая зона неопределённости

В любой статистике есть зона, где отклонение заметно, но не настолько, чтобы уверенно классифицировать. В научной практике это решается порогами, повторными измерениями, уточняющими тестами. НИПТ относится к скринингу, https://genomed.ru/s-nauchnoj-tochki-zreniya/ поэтому при повышенном риске обычно рекомендуют подтверждение диагностическими методами.

Зачем обычному человеку знать про эталоны

Потому что это меняет восприятие результата. Вы перестаёте видеть отчёт как «вердикт» и начинаете понимать его как оценку вероятности, построенную на сравнении с эталонной моделью. Это снижает тревожность и повышает осознанность: вы понимаете, почему могут предложить повтор, почему важна фетальная фракция, почему иногда нужен подтверждающий тест.

Интересный факт напоследок: в генетике «точность» не всегда означает одно и то же. Для скрининга часто важны чувствительность и специфичность, а также доля ложноположительных результатов. И именно эталонные выборки, их качество и масштаб во многом определяют, насколько устойчивым будет тест в реальной жизни, а не только в идеальных условиях.

Ключевые слова: эталонная выборка, референсный профиль покрытия, статистическая нормализация, GC коррекция, калибровочная когорта, Z score интерпретация, контроль партии, карта генома, координатная система GRCh, неоднозначное выравнивание, уникальные риды, копийные вариации, сегментация сигналов, фоновый шум секвенирования, плацентарный мозаицизм, биоинформатический контроль качества, репликация результатов, популяционная частота варианта, клиническая классификация, пределы скрининга