В прошлых статьях я объяснила, как загружать сырые сиквенсы в Geneious, как проверять их качество и как делать контиги. Ну вот у нас есть контиги, что с ними делать дальше?
Я рекомендую поместить их в другую папку. Для этого можно их выделить и воспользоваться выпадающим меню, как на картинке. То есть их можно вырезать или скопировать, а потом также поместить в другую папку, путем опции Paste. Кнопки Ctrl-C, Ctrl-X, Ctrl-V тоже работают.
Вот я у меня два контига в папке. Можно нажать на один из них, и посмотреть на него в нижнем окне.
Как редактировать контиги, зависит от ваших целей и задач, и также личных убеждений. В статьях обычно такую информацию не пишут, и в загруженных в Генбанк сиквенсах эта информация также не видна. Я всегда обрезаю те места, где заканчивается хотя бы одна последовательность, потому что там обычно пики неровные и программа не всегда может достоверно подставить нуклеотиды. В этом случае я бы обрезала с первой до 131 позиции включительно.
Для этого надо левой кнопкой мыши выделить верхнюю и нижнюю последовательности.
И нажать на клавиатуре клавишу Delete. И вот теперь контиг обрезан слева.
Точно также его я обрезаю справа. Иногда, если последовательность грязная, то я обрезаю еще больше, потому что вижу, что вероятность неверной интерпретации очень высока. Повторюсь, что это то, как работаю я. Я знаю людей, которые никогда не обрезают последовательности. Однако я все же считаю, что лучше работать с меньшим количеством, но достоверных позиций, чем с большим, где количество ошибок может быть выше.
После этого последовательность стоит просмотреть, и увидеть все ли там чисто. Вот, например, место, где нуклеотиды в некоторых позициях вызывают у программы сомнения. Она их специально подсвечивает ярче.
Почему программа их подсветила? Например, в позиции 507 в последовательности, которая сделана по обратному праймеру (верхняя) выше красный пик, то есть аденин, а в последовательности, которая сделана по прямому праймеру выше синий пик, то есть цитозин. Однако программа все же подставила аденин. Сделала она это потому, что в нижней последовательности тоже присутствует красный пик, только он слабее синего, а в верхней последовательности синего пика нет вообще. Поскольку в обоих последовательностях есть красный пик, вероятно, это правильное прочтение, а синий - это контаминация. Так что в этом случая ничего делать не нужно, программа правильно интерпретировала результат.
Однако может быть вариант, что вы не уверены в этой интерпретации, и хотите поставить неопределенность, то есть показать, что в этой позиции может быть либо А, либо С. Например, такое может быть. если вы работаете с ядерными генами, и возможно эта позиция отображает гетерозиготность. Тогда, действительно, в одной позиции может быть двойной пик, но, насколько я понимаю, это должно быть отображено как в прямой, так и в обратной цепочке.
Для кодирования неопределенности, есть специальные буквы для всех комбинаций, их легко можно найти в интернете. Например, вот в такой таблице:
Тут можно увидеть, что А или С кодируется как М. Для этого в верхней строчке, где отображены цветные буквы, надо левой кнопкой мыши выделить А, и вставить М.
Нужно просмотреть все выделенные позиции и принять обдуманное решение по каждой из них.
Также у вас могут быть пропуски в одной из цепочек. Но я не рекомендую вам что-то с ними делать. на этом этапе. Когда вы сделаете выравнивание по последовательностями из нескольких организмов, то, скорее всего, будет гораздо понятнее, в какой цепочке пошло что-то не так. Например, если у всех остальных организмов в этой позиции ничего нет, вероятно, секвенатор подставил лишнюю букву в одной из цепочек. И, наоборот, если у всех остальных организмов в этой позиции есть нуклеотид, значит секвенатор пропустил букву в одной из цепочек.
В следующий раз я напишу, как делать выравнивания.