235 подписчиков

Метод максимальной парсимонии. Вагнеровские деревья.

29 августа 202229 авг 2022

3 мин

Как строить деревья вручную, я написала в предыдущих постах: Часть 1 и Часть 2.

И еще раз, если вы решили изучать филогенетику, я рекомендую не пропускать части, где рассказывается про то, как строить деревья вручную. Конечно, это не помешает вам заниматься филогенетикой. Однако при подаче статьи в журнал вы можете столкнуться с критикой рецензентов, и вам придется переделывать исследование (например, добавлять больше внешних групп) или довольствоваться журналом более низкого ранга. Или через пару лет, перечитывая свою собственную статью, вы можете внезапно осознать, что вы пропустили что-то важное в своих же результатах или что-то неправильно интерпретировали, просто потому что не знали кухню о том, как распределяются признаки или как деревья укореняются и что при этом меняется.

В первой части я также написала, что есть два способа, которые приводят к одному и тому же результату. Этот пост я посвящу второму способу, это так называемые "Вагнеровские деревья" или Wagner trees.

Опять привожу ту же самую матрицу.

В прошлый раз я брала все таксоны сразу, и присоединяла к ним признаки по очереди. Теперь же я буду присоединять таксоны по очереди и развешивать на них все признаки, которые варьируют у имеющихся таксонов. После этого я подсчитаю количество шагов для всех деревьев после каждого присоединения.

Я начала с таксонов D и E. Есть всего один вариант, как их можно собрать вместе. И есть всего два признака, которые варьируют между этими двумя таксонами. После того, как я развесила их, то количество шагов у нас получилось - 2. Кстати, я могла повесть 3/0 на D и 5/0 на E, смысл бы от этого не изменился. Присоединить следующий таксон мы можем в трех местах (1) создать кладу с D, 2) создать кладу с E, 3) сделать сестринской к кладе D+E.

Давайте посмотрим на эти варианты.

Тут получилась интересная ситуация, потому что все деревья одинаковой длины. Так что у нас даже при желании нет способа выбрать самое короткое дерево. Чтобы не заниматься перебором всех вариантов, я выберу вариант 3 (просто потому что знаю, как должно выглядеть самое короткое дерево), но вообще в реальности надо перебирать все варианты.

Давайте прикрепим оставшиеся таксоны, и каждый раз выберем самое короткое дерево.

У нас получилось в итоге тоже самое дерево, что и при первом методе (см. здесь), и также его длина - 7. Кому-то может показаться, что дерево выглядит иначе. Но давайте сравним.

Видно, что это просто другая форма, но дерево показывает идентичные отношения. Разница только в признаке 1, который в первом случае объединяет виды C, D, E как состояние 1/1, а во втором случае, объединяет виды A, B как состояние 1/0. Но это неважно, потому что пока мы не укоренили дерево, у нас нет представления о том, что будет оптимальнее.

Опять же, тут мне так быстро удалось прийти к самому короткому дереву, потому что я знала, как оно должно выглядеть. Но в реальности, надо перебирать все варианты, чтобы найти все равноэкономные деревья.

Первый способ построения деревьев (описанный в двух предыдущих постах) интуитивно понятнее для человека, поэтому его обычно используют для построения деревьев вручную. Более того, человек, составив матрицу, может уже заранее понять, какие клады имеют много апоморфий, и таким образом начать уже с них, при этом снизив количество возможных деревьев. В программу такой образ действий загнать нельзя, просто потому что невозможно задать, что значит "достаточно" апоморфий, чтобы априори фиксировать кладу, это слишком субъективно. На больших матрицах будут неизбежно возникать ошибки.

Второй способ (описанный в этом посте) чаще используется в машинных алгоритмах, потому что для него не надо сразу же вычислять все возможные деревья (в отличие от первого). Обычно похожим способом ищется субоптимальное дерево для последующего анализа (это также называется sequential addition или stepwide addition). Суть метода в том, чтобы последовательно присоединять таксоны, и после каждого присоединения выбирать самое короткое дерево или одно из самых коротких. Таким образом очень быстро находится одно субоптимальное дерево. Оно, в свою очередь, уже будет основой для применения методов, позволяющих оптимизировать поиск и использовать более эффективные по времени методики, чем полный перебор. О них речь пойдет дальше.