Два основных метода формирования кластеров:
§ метод слияния – исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные.
§ метод дробления – сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат.
По умолчанию SPSS использует метод слияния.
В методе слияния предусмотрены несколько способов объединения объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими.
На первом этапе, когда все кластеры представляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин среднее значение приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта.
|
|
Например, для данных файла cars.sav на начальном этапе имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторяется, и в кластер объединяется еще одна пара переменных.
На втором этапе получается либо 13 свободных объектов и 1 кластер, объединяющий 2 объекта, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В итоге все объекты окажутся в одном большом кластере.