Часть 3. Когда набор данных велик (как с точки зрения количества переменных, так и с точки зрения количества наблюдений), можно сначала применить некоторую соответствующую методику сокращения измерений, а затем выполнить кластеризацию по сокращенному набору данных. Следует иметь в виду, что дискриминантная полезность расстояний теряется в пространствах параметров высокой размерности, поскольку расстояния имеют тенденцию становиться похожими (один из аспектов “проклятия размерности”). В этом методе, учитывая набор данных наблюдений над корродированными переменными, выполняется ортогональное преобразование, чтобы преобразовать его в набор некоррелированных переменных, называемых главными компонентами. Число главных компонент меньше или равно числу исходных переменных. Это преобразование определяется таким образом, что первый главный компонент имеет максимально возможную дисперсию. Одно из основных правил состоит в том, чтобы рассмотреть те компоненты, собственные значения которых бо