Я много уже написала про анализ морфологических данных и основы филогенетики. И также подробно расписала, зачем вообще надо знать морфологическую филогенетику. Однако, бесспорно, с помощью молекулярных данных можно сделать гораздо больше, и без них современную филогенетику представить невозможно. И я планирую посвятить ей много статьей, но не только... Дело в том, что в любом анализе главное - это данные и их качество. Невозможно получить хороший результат анализа на плохих данных (но обратное вполне себе возможно). Поэтому тем, кто собирается работать с анализом данных, я настоятельно рекомендую изучить вопрос о том, как эти данные получаются. Это очень полезно, даже если вы не собираетесь ничего делать своими руками. Дело в том, что методология и протоколы выделения, обработки и секвенирования ДНК могут очень сильно повлиять на результат. И в некоторых случаях, никакой гениальный биоинформатик не сможет получить имеющую смысл филогению, если на стадии выделения ДНК или постановки ПЦР не такой гениальный лаборант или студент что-то напутал в протоколе. В общем, в молекулярной филогенетике аналитика и техническая работа прочно и неразрывно связаны друг с другом.
Методология для обработки молекулярных данных обширна и постоянно развивается. Некоторые вещи устаревают, изобретаются новые анализы, пишутся новые программы. Скорость обработки данных компьютерами и объемы хранения информации постоянно растут, что тоже стимулирует появление новых возможностей. Я знаю далеко не все, но это и невозможно. Моя задача сейчас, скорее, вдохновить моих читателей, чтобы они осознали, что все это не так уж и сложно, и при желании можно всему научиться, может, по моим статьям, или по чьим-то еще. В интернете сейчас много видео и блогов, которые пошагово объясняют разные методы.
Я занимаюсь анализом данных, полученных секвенированием по Сэнгеру, и мои статьи будут об этом в первую очередь. Конечно, я буду рада возможности научится обработке геномных данных, и тогда тоже, конечно же, об этом напишу. Пока отправляю всех заинтересовавшихся к курсу об NGS на степике.
Будущее, конечно же, за большими данными. Однако и Сэнгеровское секвенирование пока рано сбрасывать со счетов. Почему? На это есть по крайней мере три ответа:
1) Цена. Сэнгеровское секвенирование как правило дешевле. Есть также мнение, что некоторые способы получать геномные данные дешевле, чем сэнгеровское секвенирование. Это правда при условии, что у вас есть все нужное оборудование и отработанные протоколы конкретно для вашего случая. Действительно, если сравнивать отработанные протоколы, то получение геномных данных даже дешевле в пересчете на один нуклеотид или ген. Однако цена отработки протокола для конкретного случая для получения геномных данных, очень высока. Если опыта мало, то это еще и рискованно. Как правило, на секвенирование сразу же надо единовременно потратить несколько сотен тысяч рублей, и есть риск, что ничего не получится. При Сэнгеровском секвенировании цена отработки протокола довольно низкая. Можно отправить несколько последовательностей на секвенирование, и понять, что получается, а что нет, и это будет стоить гораздо дешевле.
2) Обработка данных. В случае геномных данных смущает не только цена, но и сложность обработки данных. Если для обработки Сэнгеровских последовательностей надо уметь пользоваться несколькими программами с интерфейсом (и даже это часто вызывает затруднение у новичков), то в случае геномных данных обязательно надо уметь работать из командной строки. Причем, многие случаи имеют свою специфику, и надо хорошо разбираться в скриптах, чтобы выбрать нужные настройки для ваших данных и ваших задач, и даже иногда уметь писать скрипты самому (или знать кого-то, кто сделает это для вас). Для обработки Сэнгеровских последовательностей часто хватает мощности настольного компьютера или ноутбука и обсчеты длятся несколько минут, часов или дней. Для геномных данных безальтернативно нужен сервер, и иногда анализы могут длиться недели или месяцы. При выборе между геномными и сэнгеровскими данным надо учитывать баланс затрат времени + денег и полезного выхода. Есть много случаев, когда несколько маркеров вполне могут дать ответ на поставленный вопрос и не стоит стрелять из пушки по воробьям. Также в некоторых случаях стоит сузить объем работ с помощью сэнгеровских данных, и там где они не смогли дать ответ, уже применять геномные данные.
3) Для некоторых анализов на данный момент геномные данные сложно или невозможно применять. Например, это касается филогеографических или популяционных исследований, где нужно включить в анализ несколько сот экземпляров. Даже если удастся проспонсировать такое исследование (и это будет стоить очень дорого, даже если будут только свежие экземпляры и можно будет делать секвенирование подешевле), трудно представить, сколько будет длиться сборка геномов и филогенетический анализ, и какие мощности для этого будут нужны. И представьте себе такой вариант, что, допустим, было потрачено много миллионов неважно каких денег, и тысячи часов на обработку данных, и анализ в итоге показал, что филогеографической структуры у этой группы нет. В общем, все это будет довольно сомнительным мероприятием. Поэтому в таких случаях, по крайней мере в текущей реальности, лучше начинать с Сэнгеровского секвенирования, и только потом уже точечно применять геномные методы.
Я точно напишу о следующих вещах:
1) Лабораторные методы и протоколы для выделения ДНК и постановки ПЦР.
2) Обработка сырых последовательностей, выравнивания.
3) Построение филогений: RAxML, IQtree, MrBayes, Beast.
4) Построение карт гаплотипов.
5) Программы для автоматического разделения видов.
6) Датирование филогении с помощью ископаемых.