204 подписчика

Оптимизация признаков на филогении

17 сентября 202217 сен 2022

5 мин

Что такое оптимизация признаков и зачем вообще она нужна?

Когда я объясняла ручное построение деревьев, я очень поверхностно затронула тему о том, что признаки не деревьях можно развесить по-разному, но при этом длина дерева не изменится (рекомендую прочитать мои статьи на эту тему: Часть 1, Часть 2, Вагнеровские деревья).

Давайте рассмотрим вот такой простой случай. Допустим, мы построили филогению, которая выглядит вот так.

Какая была полная матрица для этой филогении, для этого примера сейчас не важно. Допустим, там было много признаков, и у нас цель проанализировать два из них:

Признак 1. Е - состояние 0. A, B - состояние 1. С, D - состояние 2.
Признак 2. A, B, C - состояние 1. D, E - состояние - 0.

Поскольку оптимизацию надо обсуждать только применительно к укорененной филогении, укоренена она на таксон E.

Для каждого из этих признаков существует три равноэкономных способа развесить их состояния на филогении (в каждом случае будет 2 шага). Давайте на них посмотрим.

Это признак 1:

Как видите, у нас предковое состояние - 0, но для клады A, B, C, D поставить состояние 1/1 или 1/2 в качестве предкового будет равноэкономно (варианты 1 и 2). И также вполне справедливо будет сказать, что мы не знаем, какое было предковое состояние, и предположить, что состояния произошли в каждой кладе отдельно (вариант 3).

Признак 2:

В вариантах 2 и 3 образуется гомоплазия, и это я объяснила здесь.

В этом случае три способа равноэкономно развесить признаки. В первом случае - предковое состояние 2/0, оно переходит в 2/1 в кладе ((A,B), (C,D)), и в таксоне D опять переходит в 2/0. Во втором случае, предковое состояние 2/1, и для таксонов E и D оно независимо переходит в состояние 1/0. Ну и в третьем варианте, у нас опять предковое состояние 2/0, и оно независимо переходит в состояние 2/1 для клады (A, B) и для таксона С.

Тут мы разобрали варианты всего для двух признаков, и если посчитать все варианты развешивания признаков, если мы учитываем только эти два признака, у нас уже получается 9 вариантов. А в матрицах обычно гораздо больше признаков. Для части из них будет один самый экономный способ развесить признаки, но скорее всего будет несколько таких, для которых таких способов будет более одного и даже более двух. Таким образом, количество вариантов развешивания признаков бывает довольно много, больше 10 или даже более 100.

Способ развешивания признаков на дереве и называется оптимизацией.

Возникает справедливый вопрос о том, а как вообще правильно их развешивать?

Поскольку мы не можем рассматривать вообще все варианты, то предлагается два крайних способа это делать. Первый способ называется быстрой оптимизацией (fast optimization или ACCTRAN). Суть в том, что все предковые состояния как можно быстрее меняются на другие, и таким образом состояния у нас появляются как можно ближе к корню. Второй способ называется медленной оптимизацией (slow optimization или DELTRAN). Ее суть в том, что предковые состояния держатся как можно дольше, и их переходы в другие состояния смещены к вершинам дерева.

Я попросила Winclada оптимизировать мне два вышеприведенных признака, и вот что получилось.

Нет никакого способа сказать, какой из этих способов лучше. Они оба равноэкономны. На самом деле очень странно, что надо выбирать между этими двумя способами оптимизации (ACCTRAN и DELTRAN), к тому же учитывая, что это крайние формы, между которым может быть много других способов оптимизировать признаки.

Более того, если мы вернемся к деревьям, где приведены способы оптимизации только для признака 1, то мы увидим, что оптимизации 1) и 2) в целом одинаково подходит для ACCTRAN, но по какой-то неведомой причине, Winclada предпочитает способ 1).

Что же делать? Чтобы решить эту проблему одним однозначным способом, была предложена так называемая unambiguous optimization. Суть в том, что мы просто не указываем на дереве те признаки, которые можно оптимизировать более, чем одним способом. То есть при такой оптимизации на финальной филогении признаки, подобные тем, которые я сейчас обсудила, отображаться просто не будут. Нам покажут только те признаки, которые оптимизируются однозначным способом.

В Winclada можно выбрать любую из этих трех оптимизаций. В TNT по умолчанию стоит unambiguous optimization. В статьях чаще всего используют ее.

Давайте сравним оптимизации признаков, которые мы получим при анализе той самой филогении рода Rayieria, опубликованную в Namyatova & Casssis (2013), которую я уже использовала для объяснения других аспектов филогенетического анализа.

ACCTRAN

DELTRAN

Unambiguous optimization

Как видите, разница очевидна.. Если вас интересует конкретный признак, который оптимизируется несколькими способами, то следует учесть (обсудить) все способы его оптимизации на дереве.

Еще одна важная вещь, это как изменяется положение признаков при строгом согласовании. Посмотрим, как это происходит на простом примере. Допустим, у нас есть вот такая очень простая матрица. Укореняем на таксоне А.

На ее основе получаются две равноэкономные филогении, каждая по 5 шагов. Как видно, тут конфликтуют состояние 2/1, которое поддерживает кладу D+E, и состояние 4/1, поддерживающее кладу C+E.

При строгом согласовании получится политомия из таксонов D+C+E, причем признаки 4 и 2 будут присутствовать там как апоморфии к этой кладе, хотя на самом деле они не являются таковыми при Deltran оптимизации.

Признаки 4 и 2 съедут к вершинам (терминалиям) при Acctran оптимизации.

Либо вообще не будут показываться при unambiguous оптимизации. То есть на филогении по сути останутся только два признака - 1 и 3. То есть Deltran использовать в таких случаях нельзя. Unambiguous оптимизация в принципе можно, только много признаков вы на ней не увидите вообще. И Acctran в целом тоже можно, но много состояний будут развешаны на терминалиях.

Namyatova, A. A., & Cassis, G. (2013). Systematics, phylogeny and host associations of the Australian endemic monaloniine genus Rayieria Odhiambo (Insecta: Heteroptera: Miridae: Bryocorinae). Invertebrate Systematics, 27(6), 689-726.