Найти в Дзене
Геномед

Источники ошибок и искажений при анализе генетических данных: почему один и тот же геном можно прочитать по разному

Генетический анализ выглядит как работа с точными буквами A, C, G, T. На практике между биологической реальностью и отчётом есть цепочка шагов, и каждый может добавить ошибку. Большинство ошибок типовые, их умеют контролировать, но понимать их полезно любому, кто читает результаты. Ошибки до секвенирования: образец и выделение ДНК
Качество начинается с пробирки. Гемолиз, бактериальное загрязнение, долгое хранение при неправильной температуре, недостаток ДНК или сильная фрагментация ухудшают точность. Для плазмы и cfDNA критичны сроки центрифугирования и условия хранения, иначе растёт доля ДНК из лизирующихся клеток крови. Библиотека и чтение: где рождаются артефакты
При подготовке библиотек возникают смещения. ПЦР может неравномерно усиливать участки генома, часть регионов читается хуже. Трудные зоны это высокий GC, повторы, псевдогены, сегментные дупликации. Там риды плохо выравниваются, алгоритм может ошибочно увидеть мутацию или пропустить реальную. Выравнивание и вариант-коллинг:
Ошибки в генетическом анализе
Ошибки в генетическом анализе

Генетический анализ выглядит как работа с точными буквами A, C, G, T. На практике между биологической реальностью и отчётом есть цепочка шагов, и каждый может добавить ошибку. Большинство ошибок типовые, их умеют контролировать, но понимать их полезно любому, кто читает результаты.

Ошибки до секвенирования: образец и выделение ДНК

Качество начинается с пробирки. Гемолиз, бактериальное загрязнение, долгое хранение при неправильной температуре, недостаток ДНК или сильная фрагментация ухудшают точность. Для плазмы и cfDNA критичны сроки центрифугирования и условия хранения, иначе растёт доля ДНК из лизирующихся клеток крови.

Библиотека и чтение: где рождаются артефакты

При подготовке библиотек возникают смещения. ПЦР может неравномерно усиливать участки генома, часть регионов читается хуже. Трудные зоны это высокий GC, повторы, псевдогены, сегментные дупликации. Там риды плохо выравниваются, алгоритм может ошибочно увидеть мутацию или пропустить реальную.

Выравнивание и вариант-коллинг: математические ловушки

Короткие фрагменты нужно правильно сопоставить с референсом. Ошибки маппинга особенно часты в повторных регионах. Дальше вариант-коллинг решает, является ли отличие настоящим вариантом или шумом. На решение влияют глубина покрытия, качество оснований, баланс прямых и обратных чтений, систематические ошибки платформы. Поэтому два пайплайна иногда дают разные списки вариантов на одном и том же сыром файле.

Интерпретация: главный источник искажений смысла

Даже верно найденный вариант нужно правильно понять. Частые ошибки: спутать вариант обнаружен и у человека заболевание, игнорировать тип наследования и фенотип, опираться на устаревшие базы, смешивать патогенность варианта и пенетрантность, то есть вероятность проявления. Геном не читается отдельно от человека.

Ещё два частых источника ошибок. Первый это контаминация и перепутывание индексов при мультиплексировании. Тогда примесь чужих ридов может имитировать мозаицизм. Второй это настоящий мозаицизм, когда вариант присутствует только в части клеток. При низкой доле аллеля его легко принять за шум или, наоборот, принять шум за вариант.

Что спросить, если результат кажется странным: какое покрытие было в проблемном участке, есть ли провалы по экзонам, есть ли риск псевдогена или повтора, подтверждался ли вариант независимым методом, соответствует ли находка клинической картине и типу наследования. И помните: чем шире панель, тем больше вариантов неопределённого значения. Это не ошибка, а граница знаний.

Биология
8125 интересуются