Метод к-средних

Это итеративный метод, который работает непосредственно с объектами, а не с матрицей сходства. Он отличается тем, что позволяет заранее задать число кластеров. Это число определяет сам пользователь, исходя из имеющейся задачи и предсказаний теории. Метод к-средних разобьет все объекты на заданное количество кластеров, которые будут максимально различаться между собой.

В этом методе объект относится к тому классу, расстояние до которого минимально. Расстояние понимается как евклидово расстояние, то есть объекты рассматриваются как точки евклидова пространства. Вначале задается некоторое разбиение данных на кластеры (число кластеров определяется пользователем) и вычисляются центры тяжести кластеров. Затем происходит перемещение каждой точки в ближайший к ней кластер. Затем снова вычисляются центры тяжести новых кластеров, и процесс повторяется, пока не будет найдена стабильная конфигурация (то есть кластеры перестанут изменяться) или число итераций не превысит заданное пользователем.

Можно сказать, что вычислительная процедура данного метода представляет собой дисперсионный анализ «наоборот». Программа начинает работу с к случайных кластеров, а затем перемещает объекты из одного кластера в другой с целью (1) минимизировать вариативность (дисперсию) внутри кластера и (2) максимизировать вариативность между кластерами. Это аналогично дисперсионному анализу «наоборот» в том смысле, что в дисперсионном анализе при определении значимости различий в средних значениях групп оценивается межгрупповая дисперсия в сравнении с внутригрупповой дисперсией. В методе k-средних программа пытается перемещать объекты между группами (кластерами) таким образом, чтобы получить наиболее значимые результаты дисперсионного анализа. Поэтому и результаты этого самого дисперсионного анализа приводятся в разделе результатов применения данного метода.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: