Часть 2. Существует два вида филогенетических методов, основанных либо на попарных расстояниях (или несходствах), вычисленных из параметров, описывающих объекты, либо на самих этих параметрах.
В параметрических методах параметры называются символами, которые в астрокладистике соответствуют параметрам, связанным с физическими измерениями некоторых свойств объектов. Методы на основе параметров оценивают все возможные деревья, которые могут быть построены с помощью объектов, и выбирают дерево(ы), соответствующее критерию оптимизации. Таким образом, процесс основан на распределении значений параметров.
Методы, основанные на параметрах, могут описывать большее разнообразие эволюционных сценариев и поэтому являются более общими, чем методы, основанные на расстоянии. Но это происходит за счет большего времени вычислений, которое быстро становится запретительным. Математически формальные связи между параметрическими и дистанционными методами развиваются в случае непрерывных параметров, объясняя, почему оба вида методов успешно используются в филогенетических исследованиях.
Среди методов, основанных на параметре, кладистика является наиболее известной. На практике кладистический анализ требует, чтобы изучаемые объекты описывались эволюционными признаками (параметрами или дескрипторами), для которых определены по меньшей мере два состояния: одно считается наследственным, а другое-производным. Полученное состояние соответствует нововведению в эволюции и предполагается, что оно было приобретено неизвестным предком. Это фаза передачи наследства, что делает потомков похожими на своих родителей. Несчастные случаи в этом процессе называются модификациями и порождают разнообразие. Эта передача с процессом модификации была вызвана Дарвином для объяснения наблюдаемой иерархической организации биологического разнообразия. Было разработано несколько подходов для поиска наилучшего представления дерева с использованием максимального правдоподобия, некоторых байесовских подходов или максимальной скупости. При максимальной скупости можно искать древовидное представление данных с наименьшим числом эволюционных шагов для объяснения данных. Но в сущности, любая сущность, будь то биологическая или нет, эволюционирующая с передачей с процессом модификации, может быть априори изучена путем максимальной скупости, при условии, что эволюционные состояния могут быть определены для персонажей.
Более общее представление отношений дается сетями, хотя их интерпретация довольно сложна, но они могут быть аппроксимированы несколькими деревьями.
В этом обзоре мы не намерены представлять все возможные методы как в контролируемом, так и в бесконтрольном обучении. Вместо этого мы сосредоточимся на опубликованных астрофизических исследованиях, выполненных с целью обнаружения структур в наборе данных, другими словами, новой кластеризации и, возможно, новой классификации галактик, выходящей за рамки традиционной морфологической схемы Хаббла.
Методы секционирования разделяют выборку на отдельные группы. Это может быть сделано с жесткими или мягкими границами в зависимости от того, является ли членство вероятностью или нет. Методы K-ближайшего соседа, машины опорных векторов и K-средних относятся к первому виду. Подход нечеткой кластеризации относится к методам мягкого секционирования и часто расширяет применимость предыдущих методов. Информационный подход с узким местом способен обеспечить оба вида классификации.
Эти методы секционирования требуют, чтобы число классов было входным. Некоторые другие методы пытаются подогнать некоторые распределения к набору данных, процесс оптимизации, обеспечивающий количество групп, наилучшим образом соответствующих данным. Эти методы основаны на смешанной модели и вейвлет-методах.
Другая категория подходов к кластеризации устанавливает отношения между объектами и выводит группы из сгенерированного графика. Первая такая категория-это иерархические методы, которые строят дерево на основе попарных расстояний. Различные сокращения на дереве приводят к различному количеству классов. Эти сокращения могут быть выбраны на основе объективных аргументов, но также могут варьироваться в зависимости от цели анализа, поскольку дерево обеспечивает синтетическое представление структур в наборе данных, а не только членство в группах. Другой вид — графов-это Сети, создаваемые методом минимального связующего дерева. Последний вид — отношений-это эволюционные отношения. Это область филогенетических методов, очень широкий предмет биоинформатики. Здесь мы представляем только максимальную экономию (кладистику), оценку соседних деревьев и внешние плоские сети, которые были применены в контексте галактик.
Продолжение следует...