Это итеративный метод, который работает непосредственно с объектами, а не с матрицей сходства. Он отличается тем, что позволяет заранее задать число кластеров. Это число определяет сам пользователь, исходя из имеющейся задачи и предсказаний теории. Метод к-средних разобьет все объекты на заданное количество кластеров, которые будут максимально различаться между собой.
В этом методе объект относится к тому классу, расстояние до которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства. Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем) и вычисляются центры тяжести кластеров. Затем происходит перемещение каждой точки в ближайший к ней кластер. Затем снова вычисляются центры тяжести новых кластеров, и процесс повторяется, пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем.
|
|
Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный анализ «наоборот». Программа начинает работу с к случайных кластеров, а затем перемещает объекты из одного кластера в другой с целью (1) минимизировать вариативность (дисперсию) внутри кластера и (2) максимизировать вариативность между кластерами. Это аналогично дисперсионному анализу «наоборот» в том смысле, что в дисперсионном анализе при определении значимости различий в средних значениях групп оценивается межгрупповая дисперсия в сравнении с внутригрупповой дисперсией. В методе k-средних программа пытается перемещать объекты между группами (кластерами) таким образом, чтобы получить наиболее значимые результаты дисперсионного анализа. Поэтому и результаты этого самого дисперсионного анализа приводятся в разделе результатов применения данного метода.