Найти в Дзене

Первичная проверка качества сырых последовательностей в Geneious

В прошлой статье я написала, как загружать последовательности в Geneious. Что делать с ними дальше?

В информации о последовательности есть несколько столбиков. Я рекомендую обращать на них внимание, потому что там может быть полезная информация, и разные столбики могут быть нужны в разных случаях. Сейчас нам интересны только три из них.

Первая колонка, на которую стоит обратить внимание - это sequence length, то есть длина сырой последовательности. Как видно, изначально у всех длина разная. Если последовательность получилась очень короткая, скорее всего, что-то пошло не так. Например, если у вас ожидаемая длина - 600 пар нуклеотидов, а получилось 150. Тут возможны как проблемы у пробы, отданной на секвенирование, так и глюк у секвенатора. Тут таких случаев нет. Вспомогательная информация - относительное содержание гуанина (G) и цитозина (С) (%GC). У близких видов оно должно быть одинаковым. Если какие-то последовательности сильно отличаются по этому параметру, скорее всего, у вас секвенировалось не то, что нужно. Например, в моей группе клопов-слепняков, соотношение G/C примерно 30-35%. Соотношение 25 или 45% говорит о том, что результат может меня не устроить.

Колонка HQ% - это качество последовательности. Чем выше там цифра, тем лучшего качества результат секвенирования. Однако же высокая цифра в этом столбике не означает, что ваши труды увенчались успехом. Иногда это может быть контаминация или паразит, и все равно сиквенс не удастся использовать.

Давайте сравним последовательности хорошего, среднего и плохого качества. Самое высокое качество из представленных последовательностей у 16S_D1_6_1_16SF.ab1 (HQ = 76.6%). Нажимаем на нее, и смотрим внизу на ее графическое отображение.

-2

Каждый пик - это нуклеотид. У каждого типа нуклеотидов свой цвет: гуанин - желтый, цитозин - синий, аденин - красный, тимин - зеленый. Номера - это позиции нуклеотидов в прочтении. Если пики высокие и не перекрываются, это означает, что сигнал был хорошим, последовательность чистой, их прочтение было качественным. Высокое качество последовательности в этом случае с позиции 124 по 550. Хорошее прочтение также отображается голубой областью над пиками, она отображает качество прочтения. Полоска, на которой написаны буквы нуклеотидов, тоже светло-голубая, это тоже качество прочтения. Если пики начинают перекрываться, это означает, что сигнал грязный, что-то еще накладывается на нужную последовательность. Если голубая область опускается вниз, то это означает низкое качество. Полоска, где написаны буквы, становится темно-синей (это означает, что сигнал грязный). Такие области присутствуют в начале и в конце данной последовательности. Это нормально, что в начале и в конце последовательности качество плохое. В случае данного сиквенса, в начале грязная область больше, чем могла бы быть, но в целом все ок.

Кстати, если пики низкие, это не означает, что результат плохой. Если он чистый, то последовательность может быть хорошего качества. Если Geneious вам показал низкие пики, вы можете сами их увеличите. Для этого в пределах голубой области нажмите левой кнопкой мыши и отрегулируйте высоту. Например, вот тут я сделала их ниже (но это все та же самая последовательность).

-3

Полоску с буквами нуклеотидов можно настроить в меню справа, в окошке Colors. Сейчас по умолчанию она отображает качество.

-4

При обработке последовательностей, удобнее, когда каждый нуклеотид подсвечивается своим цветом. Но пока мы проверяем качество, то оставляем, все как есть.

Теперь давайте посмотрим на последовательность качеством похуже. 16S_D1_2_1_16SR.ab1 У нее HQ = 55.5%.

-5

Если в первом случае, голубая область была примерно на одинаково высоком уровне над большей частью нуклеотидов, то сейчас даже в центре ее уровень постоянно скачет. Полоска с буквами нуклеотидов тоже постоянно меняет цвет от голубого к синему, потому что появляются двойные пики. То есть в данном случае, проблемы с качеством есть также и в середине, а не только на концах, что говорит о том, что последовательность заметно грязная. Но, поскольку в местах, где пики двойные, один из пиков гораздо меньше второго, то последовательность с предосторожностями, но можно использовать.

Ну и давайте посмотрим, что происходит, когда качество низкое (HQ=1.5%). 16S_D1_1_16SF.ab1

-6

Как видно, тут много перекрывающихся пиков. Пики скачут по высоте. Полоска с буквами нуклеотидов почти на всем протяжении синяя. Голубую область почти не видно, потому что качество прочтения низкое. Скорее всего, такую последовательность в работу взять не получится.

Geneious также позволяет использовать BLAST NCBI из своего интерфейса. То есть вы можете быстро проверить, к какой последовательности из Генбанка ближе всего получившиеся у вас последовательности. Давайте проверим три этих последовательности, которые я привела в пример.

Чтобы использовать BLAST, надо нажать на название нужной последовательности в списке правой кнопкой мыши, и в выпадающем меню выбрать BLAST.

-7

Откроется вот такое окно. Ничего менять не надо. Просто жмем Search.

-8

Надо немного подождать. Для результатов поиска Geneious создает новую подпапку в папке, где лежит интересующая вас последовательность (на скриншоте она подсвечена серым). Пока идет поиск, можно заняться чем-то другим, и потом просто зайти в эту папку и посмотреть результаты. Можно также анализировать бластом более одной последовательности одновременно.

-9

Вот такие результаты получились для последовательности самого лучшего качества.

-10

Как видно, это контаминация. Получился совсем другой вид, а именно Человек Разумный. Напоминаю, должны получиться клопы-слепняки. Если взглянуть на колонку %GC, которая соответствует этой последовательности (см. на первом скриншоте 16S_D1_6_1_16SF.ab1), то увидим, что там стоит значение 45%, что значительно превышает то, что ожидается у клопов-слепняков.

Грустно вздыхаем, ну ничего, к счастью, такой результат - это редкость. Далее анализируем последовательность среднего качества. Получился клоп-слепняк нужного рода, с этой последовательностью можно работать.

-11

Ну и вот, что получилось с бластом последовательности плохого качества

-12

Тоже получился нужный род. Несмотря на плохое качество, эту последовательность тоже можно будет использовать, зависит от целей работы.

Что касается Генбанка, то там сейчас уже очень много видов, и эта база постоянно растет. Несмотря на всю критику того, что не всегда названия видов там выверены, это большое подспорье для ученых. Я все же рекомендую относиться к результатам с осторожностью. Если BLAST вам выдал, что ваша последовательность очень близка к определенному виду, это не означает автоматически, что это и есть ваш вид. Вашего вида может не быть в Генбанке, и он вам показывает только самую ближайшую последовательность. Ну и качество определения последовательностей - тоже большая проблема. Надо смотреть, кто определял организм и для каких целей. Ну об этом я еще напишу отдельно.