Анализ последовательностей относится к пониманию различных особенностей биомолекулы, таких как нуклеиновые кислоты или белок, которые придают ей уникальную(ые) функцию(ии).
Во-первых, из открытых баз данных извлекаются последовательности соответствующих молекул. После доработки, при необходимости, они подвергаются различным инструментам, позволяющие прогнозировать их свойства, связанные с их функцией, структурой, эволюционной историей или идентификацией гомологов с большой точностью.
Какой инструмент следует использовать в зависимости от характера проводимого анализа?
Например, инструменты поиска данных:
«PubMed», позволяют осуществлять поиск и извлекать данные из широкого круга областей данных. Аналогичным образом, такие инструменты обнаружения закономерностей, как профилировщик экспрессии, «GeneticsQuiz», позволяют исследователям искать различные закономерности в данных.
Другой набор инструментов предназначен для проведения сравнения последовательностей:
Такие инструменты, как BLAST (поиск основных выравниваний), ClustalW позволяют сравнивать последовательности генов или белков для изучения их эволюционной истории или происхождения.
Инструменты визуализации данных:
Такие как Jalview, GeneView, TreeView, Genes-Graphs, позволяют исследователям просматривать данные в графическом виде. Эти инструменты используют передовое математическое моделирование и статистические выводы, такие как динамическое программирование, скрытая модель "Маркова" (СММ), регрессионный анализ, ИНС (искусственные нейронные сети), кластеризация и секвенирование для анализа данной последовательности.
Эти анализы пользуются популярностью благодаря их широкому применению в биологических науках, простоте и способности генерировать богатые знания о рассматриваемом гене/белке. Эти виды анализа особенно полезны для идентификации промоторов, терминаторов или регионов, не имеющих перевода, участвующих в правилах экспрессии, распознавания транзитных пептидов, интронов, экзонов или открытие рамки считывания (ОРС), и идентификации определенных переменных регионов, используемых в качестве сигнатур для диагностических целей.
Таким образом, анализ последовательности однин из часто выполняемых анализов биоинформатики. Например, Стойлов и другие ученые использовали анализ последовательности в сочетании с гомологическим моделированием для исследования генетических основ первичной врожденной глаукомы (ПВГ).
Аналогичным образом, анализ геномной последовательности микобактерии туберкулёза H37Rv показал, что большинство белков бактерии являются результатом повторного дублирования генов или перемешивания экзонов. В недавнем исследовании прогнозировалось, что ген cbp50 от почвенной бактерии будет кодировать белок, обладающий множеством связывающих хитин доменов. Аналогичным образом, Rho-независимые терминальные элементы образуют коллекцию из 343 геномов прокариоза, предсказанных достаточно точно (более 6% ложноположительного предсказания) с помощью различных вычислительных инструментов.
В большинстве случаев прогнозы ссылаются на взаимодополняющие теги последовательности ДНК (cDNA) и экспрессии (ESTs). Однако информация о cDNA/ESTs часто является скудной и неполной, что делает задачу поиска новых генов чрезвычайно сложной.
Ученые, занимающиеся вычислениями, разработали еще один метод, известный как начальная генетическая идентификация. Потенциал этого метода был продемонстрирован в исследовании, которое смогло предсказать 88% уже проверенных экзонов и 90% кодирующих нуклеотидов от Дрозофилы фруктовой (род мухи) с очень низкой частотой ложно-положительной идентификации . С учетом точности (~90%), обеспечиваемой таким подходом, он может быть надежным инструментом для разметки длинных геномных последовательностей и прогнозирования новых генов.
Недавно "Ленц и др. смогли идентифицировать межгенный -однонуклеотидный полиморфный тип (SNP; rs11098403) с хромосомой 4q26, связанной с шизофренией и биполярным расстройством. Проведя исследование в рамках всего генома (GWAS) вместе с cDNA и RNA Seq на группе из 23 191 индивидов (5 415 шизофреников, 4 785 биполярников и 12 991 контрольной группы). Было установлено, что rs11098403 связан с экспрессией соседнего фермента NDST3, участвующего в метаболизме сульфата гепарана (HS) в тканях головного мозга".
Аналогичным образом, "Пэнг" и его коллеги (2013) предсказали функцию 31 987 генов из проекта генома лесного вида «Листоколосник съедобный» (вид бамбука), используя подходы моделирования прогнозирования генов на основе FgeneSH++.