Секвенирование микроорганизмов претерпело многочисленные технологические революции с тех пор, как 40 лет назад был секвенирован геном бактериофага φX174. Технология секвенирования Сангер (Sanger) или секвенирование первого поколения стала золотым стандартом для анализа ДНК и до сих пор широко используется.
В сочетании с изобретением ПЦР (полимеразная цепная реакция) и методов молекулярного клонирования секвенирование Сангера было очень важным для выяснения первых микробных геномов. В настоящее время секвенирование Сангера применяется только для быстрого анализа конкретных геномических локусов или небольших плазмид и конструкций ДНК, в то время как секвенирование всего генома в основном осуществляется с помощью технологий секвенирования следующего поколения (NGS).
Технология секвенирования следующего поколения (NGS)
NGS была представлена в 2005 году, когда компания 454 Life Sciences выпустила первый массовый инструмент параллельного секвенирования, начав так называемую эру секвенирования второго поколения.
Более того, технологические разработки позволили снизить стоимость секвенирования ДНК за счет параллельных подходов, позволяющих получать большое количество данных для чтения всего генома. Эти разработки привели к экспоненциальному увеличению числа секвенированных геномов, и сегодня в базе данных Банка генов имеется более ста тысяч прокариотных геномов.
Однако важно понимать, что более 90% из них не являются полными геномами, а скорее «черновые» геномы, собранные в сотни парциальных последовательностей ДНК.
Это является следствием относительно короткого времени считывания данных с платформ NGS второго поколения.
Совсем недавно были разработаны технологии секвенирования третьего поколения, позволяющие получать значительно более длинные показания генома, хотя и по более высокой цене и часто с меньшей точностью.
Анализ микробиологического генома в шесть этапов
Полногеномное секвенирование микроорганизмов достаточно долгий и трудоемкий процесс, происходящих в шесть основных этапов, которые описаны ниже.
Контроль качества
Контроль качества необработанных считываний последовательности обычно представляет собой первый шаг процедур последующего анализа, где такие инструменты, как FastQC, используются для оценки возможных загрязнений, данных низкокачественного считывания ПЦР посредством анализа качества нуклеотидов.
Сборка последовательностей «de novo»
Сборка последовательностей претерпевает непрерывную эволюцию, в основном благодаря достижениям в технологии секвенирования, которые изменяют свойства данных секвенирования, и достижениям в области компьютерных наук, которые делают эту общеизвестно сложную вычислительную проблему разрешимой.
Качество сборки может быть дополнительно улучшено с помощью автоматизированных подходов к завершению секвенирования генома (например, с помощью полимеразы и «сшивания» разрывов нуклеотидов).
Аннотация генома
Аннотация генома может быть определена как идентификация всех биологически значимых признаков в последовательности генома и состоит из двух этапов:
Структурная аннотация – выявление или определение всех генов, которые кодируют белки, а также определение сигнальных пептидов (так называемых «старт кодонов», с которых начинается процесс считывания генома) и некодирующих РНК (то есть «интронов», которые могут существенно навредить процессу считывания генома)
Функциональная аннотация включает в себя присвоение биологических функций предсказанным генам (например, присвоение ферментативной активности и антибиотической резистентности).
Визуализация генома
Различные научно-исследовательские институты, а также компании, занимающиеся биоинформатикой, разработали программные средства для облегчения визуализации и анализа собранных и аннотированных геномов для выявления новых генов, мутаций, ферментов или метаболических путей.
Это бесплатное программное обеспечение похоже на обширную базу данных всех собранных геномов, которое к тому же постоянно обновляется. В этой программе можно ввести последовательность выявленного гена и посмотреть его характеристику.
Сравнительная геномика
Подходы сравнительной геномики с кратко-читаемыми данными секвенирования традиционно фокусируются на вариационном анализе путем считывания карт с выбранным эталонным геномом.
Кроме того, метод способен обнаруживать большие структурные изменения, которые могут быть особенно хорошо обнаружены, если в качестве входных данных предоставлены замкнутые геномы.
Наконец, геномы можно сравнить на функциональном уровне.
Транскриптомный анализ RNA-Seq
RNA-Seq обеспечивает точную оценку уровня экспрессии генов, а также используется для анализа изоформ транскриптов и слияний генов.
Экспрессия генов оценивается по количеству прочитанных отображенных нуклеотидов в транскрипте.