double arrow

Кластерный анализ

Кластерный анализ (от англ. cluster – группа, пучок) – это процедура, позволяющая классифицировать различные объекты. С его помощью можно разбить респондентов на группы, сходные по ряду признаков.

Цель кластерного анализа — классификация объектов на относительно гомогенные (однородные) группы исходя из рассматриваемого набора переменных. Объекты в группе относительно схожи между собой и отличаются от объектов в других группах. Если кластерный анализ использовать именно таким образом, то он становится составной частью факторного анализа, так как снижает количество объектов, а не количество переменных, группируя их в меньшее количество кластеров.

С кластерным анализом связаны следующие статистики и понятия.

План агломерации, объединения (agglomeration schedule). Дает информацию об объектах (событиях, случаях), которые должны быть объединены на каждой стадии процесса иерархической кластеризации.

Кластерный центроид (cluster centroid). Среднее значение переменных для всех случаев или объектов в конкретном кластере.

Кластерные центры (cluster centers). Исходные начальные точки в неиерархической кластеризации. Кластеры строят вокруг этих центров, или зерен кластеризации.

Принадлежность кластеру (cluster membership). Указывает кластер, к которому принадлежит каждый случай или объект.

Древовидная диаграмма (дендрограмма) (dendrogram). Ее также называют древовидный граф — графическое средство для показа результатов кластеризации. Вертикальные линии представляют объединяемые кластеры. Положение вертикальной линии на шкале расстояния (горизонтальная ось) показывает расстояния, при которых объединяли кластеры. Древовидную диаграмму читают слева направо.

Расстояния между кластерными центрами (distances between cluster centres). Указывают, насколько разнесены отдельные пары кластеров. Кластеры, которые разнесены широко, ясно выражены и поэтому желательны.

Сосульчатая диаграмма (icicle diagram). Это графическое отображение результатов кластеризации. Она названа так потому, что имеет сходство с рядом сосулек, свисающих с крыши дома. Сосульчатую диаграмму читают сверху вниз.

Матрица сходства, или матрица расстояний между объединяемыми объектами (similarity/distance coefficient matrix). Матрица сходства (расстояний) — это нижняя треугольная матрица, содержащая значения расстояния между парами объектов или случаев.

Программа SPSS реализует три метода кластерного анализа: 2-этапный (Two-step), К-средних (K-means) и иерархический (Hierarchical).

2-этапный кластерный анализ позволяет выявить группы (кластеры) объектов по заданным переменным, если эти группы действительно существуют. При этом программа автоматически определяет количество существующих кластеров. Если невозможно определить количество кластеров, все объекты помещаются в один.

Наиболее часто в анализе социологической информации используется иерархический кластер-анализ и метод К-средних.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



Сейчас читают про: