Найти в Дзене

Кодирование морфологических признаков. Часть 2.

Продолжаю обсуждать кодирование морфологических признаков. Начало, а также обсуждаемая матрица здесь.

В прошлый раз я объяснила, почему признаки с двумя состояниями, где одно из состояний уникальное, не несут смысла для филогении. Однако давайте теперь посмотрим на признак 6 (Количество рогов). Там три состояния, и для одного таксона стоит знак вопроса (потому что рогов нет). Только состояние 0 (1 рог) появляется дважды, все остальные состояния появляются 1 раз. Этот признак также бесполезен для филогении. Как я уже написала, группа таксонов может группироваться только относительно другой группы таксонов. То есть на практике это означает, что у признака должно быть хотя бы два состояния, каждое из которых появляется у двух и более таксонов. Чтобы нести смысл для филогении, состояния одного признака должны формировать хотя бы две группы таксонов.

Кстати, это также применимо и к молекулярным данным для некоторых анализов, включая парсимонию и тех, что основаны на моделях (Maximum Likelihood и Bayesian Inference). К примеру, если у нас в какое-то позиции у всех изучаемых таксонов стоит тимин (Т), а у одного аденин (А), то эта позиция будет вариабильна, но не информативна. То же самое будет, если у нас, скажем, у всех Т, а у одного А, и еще у одного цитозин (С), и так далее.

Однако сами по себе уникальные состояния могут быть полезны, если у нас цель — это картировать признаки на филогению.

Второе, на чем я хотела бы остановиться, - это кодирование отсутствия признаков. Давайте обратим внимание на рога пятиногов. Их можно закодировать в матрицу очень по-разному. Очень желательно не комбинировать в одном признаке два признака. Например, я могла бы закодировать количество рогов вот так: (0) 0, (1) 1, (2) 2, (3) 3. У меня получилось бы четыре состояния. Такой кодировкой я на самом деле смешиваю два признака. Один из них про наличие рогов в принципе, второй — про их количество в случае, если они есть. То есть наличие рогов само по себе — это уже может быть каким-то продвинутым состоянием.

В данном случае смешение двух состояний становится еще более критичным, потому что есть еще один признак, связанный с рогами — это форма рогов (признак 5). Тут я также закодировала таксон А (без рогов) знаком вопроса, но можно было бы его закодировать как 0, то есть: (0) рогов нет, (1) палочки, (2) овалы. Если бы я оба признака, 5 и 6, закодировала бы таким образом, то у получилось бы, что отсутствие рогов появляется в матрице дважды, чего не должно быть. Можно тогда выбрать, в каком из этих признаков закодировать отуствие рогов знаком вопроса, а в каком — 0. Но это уже чистая вкусовщина. То, что мы не видим рогов — это больше о количестве или о форме? Их действительно 0 или они слишком маленькие, чтобы их разглядеть и описать их форму и количество? Вряд ли можно четко дать ответ на этот вопрос. По этой причине, знак вопроса — это наиболее честный вариант кодирования в этом случае, потому что мы не знаем ничего о рогах, кроме того, что их нет.

Таким образом, отсутствие структуры всегда лучше кодировать отдельно, а размер, форму, количество, цвет кодировать только в случаях, если эти структуры имеются.

Ну и третий важный момент, который стоит обсудить — это кодирование сложных признаков . Давайте опять посмотрим на рога пятиногов. Есть еще один вариант кодирования: каждый раз кодировать присутствие, форму и количество рогов вместе. Выглядеть это будет так: (0) рога отсутствуют, (1) рог один, палочка, (2) рог один, овал, (3) рога два, палочки, (4) рога три, овалы. Таким кодированием мы избегаем повторного появления состояния в матрице, потому что для рогов у нас теперь всего один признак. Но обратите внимание, если в варианте кодирования тремя признаками у нас хотя бы один признак несет смысл для филогении (признак 5), закодировав рога пятью состояниями, мы сделали их бесполезными для филогении, потому что каждое состояние у нас теперь уникальное. Парадоксальным образом получается, что, пытаясь сохранить как можно больше информации с помощью такой кодировки, мы теряем ее для филогении.

В реальных случаях в филогении больше таксонов и, возможно, иногда имеет смысл кодировать сложный признак как один. Однако такое решение должно быть хорошо обдуманным, и должно быть осознание, что в таком случае теряется.

В заключение надо сказать, что создание морфологической матрицы — это отчасти творческий процесс. Думаю, что невозможно создать две идентичные матрицы, если их строят двое разных людей. Впрочем, то же самое можно сказать и про выравнивания, просто в выравниваниях больше информации, и индивидуальные убеждения того, кто с ними работает, меньше влияют на результат. Однако даже с неидентичными матрицами результаты филогении могут быть похожими. И еще важно, насколько обдуманно исследователи подступаются к кодированию. Если признаки закодированы на скорую руку и как придется, и сам исследователь не готов их прокомментировать, то и отношение к результатам будет соответствующим. Если признаки закодированы вдумчиво, и принципы кодировки открыты для читателя статьи, то к такой филогении будет больше доверия. Даже если филогенетические выводы не подтвердятся в дальнейшем, результаты могут быть полезны с морфологической точки зрения.

Хороший пример как кодировать признаки для научных исследования можно посмотреть в приведенное ниже статье. Большой плюс этого исследования в том, что я очень старалась сделать кодировку понятной и проиллюстрировать почти каждое состояние.

Namyatova, A. A., Konstantinov, F. V., & Cassis, G. (2016). Phylogeny and systematics of the subfamily Bryocorinae based on morphology with emphasis on the tribe Dicyphini sensu Schuh. Systematic Entomology, 41(1), 3-40.

Наука
7 млн интересуются