240 подписчиков

Немного про выравнивания. Консенсусные последовательности и выравнивания в Geneious

13 марта 202413 мар 2024

5 мин

В прошлый раз я рассказала, как работать с контигами в Geneious. Допустим, вы их просмотрели, приняли решение по каждому нуклеотиду. Обрезали, если посчитали нужным. Что дальше? Для анализа надо сделать выравнивание. Оно нужно для того, чтобы сопоставить позиции разных последовательностей друг с другом, и понять, в какой позиции произошли замены. Ниже я привожу ссылки на некоторые видео о том, как работают разные алгоритмы. Однако таких видео в интернете много, они разные по длительности, по освещаемым аспектам, на разных языках. Чтобы детально понимать алгоритмы, надо углубиться в математику. Но на самом деле, на базовых уровнях работы с филогенетикой, слишком детальное понимание не особо нужно. Если вы будете заниматься биоинформатикой и решите сами писать скрипты, то там уже придется всю эту кухню осознать. Для начала работы с выравниваниями надо понимать следующие вещи: 1) Выравнивания бывают локальные и глобальные. Глобальное выравнивание используется, когда вы работаете с посл

Для анализа надо сделать выравнивание. Оно нужно для того, чтобы сопоставить позиции разных последовательностей друг с другом, и понять, в какой позиции произошли замены.

Ниже я привожу ссылки на некоторые видео о том, как работают разные алгоритмы. Однако таких видео в интернете много, они разные по длительности, по освещаемым аспектам, на разных языках.

Чтобы детально понимать алгоритмы, надо углубиться в математику. Но на самом деле, на базовых уровнях работы с филогенетикой, слишком детальное понимание не особо нужно. Если вы будете заниматься биоинформатикой и решите сами писать скрипты, то там уже придется всю эту кухню осознать. Для начала работы с выравниваниями надо понимать следующие вещи:

1) Выравнивания бывают локальные и глобальные.

Глобальное выравнивание используется, когда вы работаете с последовательностями, сопоставимыми по размеру. Например, у вам несколько последовательностей одного и того же генетического маркера, но из разных организмов.

Локальное выравнивание нужно, когда вы хотите картировать маркер на более длинный участок ДНК. Например, у вас есть последовательность, и вы хотите узнать, какому участку генома она соответствует Тогда вам нужно взять аннотированный геном этого же вида или близкого. Аннотированный геном означает, что в файле, где он записан, промаркированы начало и конец генов и других участков генома. Даже если вы работаете с обычным баркод (цитохром оксидаза с субъединица 1 или COI, или cox1), иногда важно узнать, с какого конкретно нуклеотида по порядку в митохондриальном геноме начинается анализируемый вами ген. Например, это нужно, если вы хотите включить замены нуклеотидов в диагноз описываемого вами вида, и вам надо предоставить конкретную позицию замены в митохнодриальном геноме. Кстати, BLAST - это тоже локальное выравнивание. О нем я напишу отдельно чуть позже.

2) Разные алгоритмы выравниваний отличаются по точности и времени построения выравниваний. Вам нужно подобрать алгоритм в зависимости от вашего конкретного случая. Самые популярные - это ClustalW, Muscle и T-Coffee.

3) Какой бы алгоритм вы не использовали, результат выравнивания следует просмотреть и убедиться, что вас оно устраивает. Если какая-то последовательность выравнена некорректно, это повлияет на все последующие анализы. Такое может случиться по разным причинам. Например, она прочитана не с прямого, а с обратного праймера. В последовательности может быть контаминация, из-за чего в ней появились длинные вставки. Или наоборот, из-за плохого качества в сиквенсе много пропусков. Все подозрительные места надо просмотреть, и решить, что делать в каждом из случаев.

Мы остановились на редактировании контигов, и выглядят они вот так.

Давайте сделаем из них выравнивание.

Надо выделить все последовательности, и нажать на правую кнопку мыши. В выпадающем меню выбрать Multiple Align.

Появится вот такое окно. В данном случае нас интересует глобальное выравнивание. Также можно выбрать строгость выравнивания, по умолчанию стоит 65%. Можно так и оставить.

Как видно в данном случае программа не позволяет нам выбрать алгоритм выравнивания, потому что мы выравниваем консенсусы.

После того, как нажали на ОК, в списке появляется еще один файл, который называется Nucleotide Alignment. И внизу появляется выравнивание.

Поскольку мы выравнивали контиги, то тут их видим. По сути программа выровняла прочтения с обоих праймеров. Но это не совсем то, что нам нужно, потому что мы все-таки будем работать с выравниваниями консенусных последовательностей.

По сути можно сделать одну последовательность из контига, и все места, в которых была неопределенность будут обозначены соответственными буквами, такая последовательность и будет называться "консенсусной". В чем суть? Например, если в прочтении в одной и той же позиции по первому праймеру проставлен аденин (А), а в прочтении по второму праймеру проставлен тимин (Т), то в этой позиции будет стоять буква W в консенсусе. Другой вариант, если в двух прочтениях в одной позиции буквы отличаются, но в одной из них пик грязный, то в консенсусе подставится та буква, где пик чистый. Если у вас качественное прочтение с обоих праймеров и нет гетерозиготности, то во всех позициях по обоим прочтениям должны быть идентичные нуклеотиды.

Например, вот у нас последовательность D1_12_16S

В позиции 411 прочтения различаются. В одном С, в другом G. Оба пика грязные, но в каждом случае разные нуклеотиды несут более сильный сигнал. В контигах консенсус показан сверху цветными буквами, для этой позиции у него проставлен S (что значит, либо C, либо G).

Чтобы вывести консенсус в отдельный файл, надо выделить нужный контиг, нажать на него правой кнопкой мыши, и потом нажать на Generate Consensus Sequence.

Откроется вот такое окно. Можно оставить настройки по умолчанию.

Нажимаем ОК, Консенсус появляется отдельным файлом в списке.

Как видно, в позиции 411 буква S.

Вот еще один пример. Контиг D1_2_1_16S.

Тут в некоторых позициях есть различия в прочтениях. Но нижнее прочтение более грязное, поэтому программа подставляет значения более чистых пиков в консенсус. Однако если вы не согласны, то можете исправить вручную.

Следующая задача - сделать из всех контигов отдельные файлы с консенсусными последовательностями, также, как описано выше. И лучше всего положить их в отдельную папку. Как создавать папки см. здесь. Перенести последовательности можно элементарно с помощью Copy-Paste (CtrlC-CtrlV).

Вот как это выглядит у меня. Внизу показаны все консенсусные последовательности, но они еще не выровнены. Также нужно нажать на Multiple Align.

При работе с консенсусами появляется больше опций выравниваний.

Я выравниванию обычно с помощью Geneious Alignment. Но можно выбрать любой алгоритм, и посмотреть, чем они будут в реальности отличаться.

Ну вот, выравнивание сделано. И оно помещено в отдельный файл в списке под названием Nucleotide Alignment.