Найти в Дзене
Астрономия

Внегалактическая астрономия.

Часть 3. Когда набор данных велик (как с точки зрения количества переменных, так и с точки зрения количества наблюдений), можно сначала применить некоторую соответствующую методику сокращения измерений, а затем выполнить кластеризацию по сокращенному набору данных. Следует иметь в виду, что дискриминантная полезность расстояний теряется в пространствах параметров высокой размерности, поскольку расстояния имеют тенденцию становиться похожими (один из аспектов “проклятия размерности”). В этом методе, учитывая набор данных наблюдений над корродированными переменными, выполняется ортогональное преобразование, чтобы преобразовать его в набор некоррелированных переменных, называемых главными компонентами. Число главных компонент меньше или равно числу исходных переменных. Это преобразование определяется таким образом, что первый главный компонент имеет максимально возможную дисперсию. Одно из основных правил состоит в том, чтобы рассмотреть те компоненты, собственные значения которых бо

Часть 3. Когда набор данных велик (как с точки зрения количества переменных, так и с точки зрения количества наблюдений), можно сначала применить некоторую соответствующую методику сокращения измерений, а затем выполнить кластеризацию по сокращенному набору данных.

Следует иметь в виду, что дискриминантная полезность расстояний теряется в пространствах параметров высокой размерности, поскольку расстояния имеют тенденцию становиться похожими (один из аспектов “проклятия размерности”).

В этом методе, учитывая набор данных наблюдений над корродированными переменными, выполняется ортогональное преобразование, чтобы преобразовать его в набор некоррелированных переменных, называемых главными компонентами. Число главных компонент меньше или равно числу исходных переменных. Это преобразование определяется таким образом, что первый главный компонент имеет максимально возможную дисперсию. Одно из основных правил состоит в том, чтобы рассмотреть те компоненты, собственные значения которых больше единицы в уменьшенном пространстве. Главные компоненты гарантированно будут независимыми только в том случае, если переменные совместно нормально распределены.

Главным образом компонентный анализ, анализ фактора, преследование проекции некоторые популярные методы, основанные на линейном преобразовании. Но ICA отличается тем, что он ищет компоненты в представлении, которые являются одновременно статистически независимыми и негауссовыми. ICA отделяет статистически независимые компоненты, которые являются исходными данными, от наблюдаемого набора смесей данных. Вся информация в многомерных наборах данных не является одинаково важной. Часто возникает необходимость в извлечении самой полезной информации. ICA извлекает и раскрывает полезные скрытые факторы из всех наборов данных. ICA определяет генеративную модель для наблюдаемых многомерных данных, которая обычно задается как большая база данных образцов. В отличие от PCA, компоненты не навязываются, чтобы быть ортогональными.

Метод PCA был применен в нескольких работах в 1970-х и 1980-х годах с целью нахождения основных параметров, объясняющих дисперсию между выборками галактик. Использовали четыре параметра (диаметр, величина, средняя поверхностная яркость и средний индекс концентрации) и обнаружили, что два главных компонента объясняют 97% общей дисперсии в их выборке всех морфологических типов, в согласии с другими исследованиями. В то время как не находят различий в двухмерной плоскости ПК между эллиптическими и дисковыми галактиками, явно ищет объективную классификацию галактик “«тот факт, что существует так много различных систем классификации для галактик...демонстрирует, что мы все еще ищем фундаментальные свойства.» Используя больше параметров (до 15), они согласились с другими исследованиями по двум компонентам, объясняющим большую часть дисперсии, и предварительно идентифицировали их как масштаб и форму. Они не разрабатывают новую классификационную схему, а скорее выявляют различные корреляции в зависимости от положения галактик на двумерной диаграмме.

Несколько исследований использовали ПКА как в качестве уменьшения размерности, так и в качестве инструмента для классификации спектров галактик. Спектры характеризуются большим количеством признаков (длин волн), которые не являются независимыми, поскольку спектр состоит из континуального спектра от звезд плюс линий поглощения и излучения от газа. PCA имеет в принципе силу определить минимальное число спектров для того чтобы совместить для того чтобы получить наблюдаемую разнообразность. Connolly et al. используется вариант методики пса, преобразование Карунена-Лав, которое позволяет по-разному взвешивать некоторые части спектров. Они не только обнаруживают, что для учета большей части дисперсии спектров галактик необходимы два собственных спектра, но и считают, что распределение классов в двухпараметрическом пространстве одномерно. Они предложили схему из 10 классов, некоторые из которых соответствуют широким морфологическим типам Sa, Sb, S0 и E, в то время как шесть других являются объектами звездообразования. Их работа была предназначена для использования спектральными обзорами для автоматической классификации наблюдений.

Продолжение следует...