Выбор переменных-критериев для кластеризации

Для демонстрации кластерного анализа в заданиях используется файл cars.sav, содержащий гипотетические данные о 15 подержанных автомобилях разных марок, выставленных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации кластерного анализа.

Для данного файла кластеризация будет осуществляться по следующим переменным:

§ цена (стоимость),

§ т_сост (экспертная оценка технического состояния по 10-балльной шкале),

§ возраст (количество лет эксплуатации),

§ пробег (пройденный километраж с начала эксплуатации).

2. Выбор способа измерения расстояния между объектами, или кластерами ( изначально считается, что каждый объект соответствует одному кластеру).

По умолчанию используется квадрат Евклидова расстояния – расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.

Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В – 7 и 4 соответственно.

Тогда по этим двум переменным (координатам) расстояние между марками А и В вычисляется следующим образом: (5 - 7)² + (6 - 4)² = 8.

При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров[1].

Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат кластерного анализа в том случае, если переменные имеют различные шкалы измерения? Так, все переменные файла cars.sav имеют самые разные шкалы.

Для решения проблемы шкалирования в SPSS используется стандартизация, в частности, ее простой метод – нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее равно 0, стандартное отклонение – 1).

При нормализации всех переменных при проведении кластерного их веса становятся одинаковыми. В случае если все исходные данные имеют одну и ту же шкалу измерения, либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.

1 2 3 4 5 6 7

Мгновенный центр скоростей (МЦС) и его определение. Определение скоростей точек тела с помощью МЦС

Личностные качества волонтеров, которые определяют эффективность волонтерской работы

Три этапа Великой Отечественной войны

Расчет на прочность при срезе и смятии

Источники международного права

Контроль за санитарным состоянием тумбочек, холодильников, за ассортиментом и сроками хранения продуктов

Самый сильный аргумент, почему эволюция человека не могла быть

Как можно поддерживать порядок в государстве без религии? Когда один человек умирает от голода рядом с другим, больным от обжорства, он не способен смириться с таким различием, если только власть не объяснит ему, что «это от Бога». Религия – отличное средство утихомиривать людей. © Наполеон ==> читать все изречения...

8473

7903