Выбор переменных-критериев для кластеризации

Для демонстрации кластерного анализа в заданиях используется файл cars.sav, содержащий гипотетические данные о 15 подержанных автомобилях разных марок, выставленных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации кластерного анализа.

Для данного файла кластеризация будет осуществляться по следующим переменным:

§ цена (стоимость),

§ т_сост (экспертная оценка технического состояния по 10-балльной шкале),

§ возраст (количество лет эксплуатации),

§ пробег (пройденный километраж с начала эксплуатации).

2. Выбор способа измерения расстояния между объектами, или кластерами ( изначально считается, что каждый объект соответствует одному кластеру).

По умолчанию используется квадрат Евклидова расстояния – расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.

Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В – 7 и 4 соответственно.

Тогда по этим двум переменным (координатам) расстояние между марками А и В вычисляется следующим образом: (5 - 7)2 + (6 - 4)2 = 8.

При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров[1].

Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат кластерного анализа в том случае, если переменные имеют различные шкалы измерения? Так, все переменные файла cars.sav имеют самые разные шкалы.

Для решения проблемы шкалирования в SPSS используется стандартизация, в частности, ее простой метод – нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее равно 0, стандартное отклонение – 1).

При нормализации всех переменных при проведении кластерного их веса становятся одинаковыми. В случае если все исходные данные имеют одну и ту же шкалу измерения, либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: