Тема 1. Обучение без учителя: простейшие алгоритмы кластеризации.
Основное задание:
1. Изучить различные меры близости изображений(описаний объектов)
2. Изучить:
· простой эвристический алгоритм определения кластеров
· эвристический алгоритм максиминного расстояния
· алгоритм К внутригрупповых средних
3. Подробно разобрать примеры работы каждого из этих алгоритмов
4. Указать сферу применения данной группы алгоритмов
5.
Меры сходства
Для того чтобы определить на множестве данных кластер, необходимо в первую очередь ввести меру сходства (подобия), которая может быть положена в основу правила отнесения изображений объектов к области, характеризуемой некоторым центром кластера.
1) Ранее рассматривалось евклидово расстояние между образами и :
;
эта характеристика использовалась в качестве меры сходства соответствующих образов: чем меньше расстояние между ними, тем больше сходство.
2) Меры сходства не исчерпываются расстояниями. В качестве примера можно привести неметрическую функцию сходства
,
представляющую собой косинус угла, образованного векторами и , и достигающую максимума, когда их направления совпадают. Этой мерой сходства удобно пользоваться в тех случаях, когда кластеры обнаруживают тенденцию располагаться вдоль главных осей, как это показано на рис. Этот рисунок, в частности, показывает, что образ обладает большим сходством с образом х, чем образ z2, поскольку значение функции s(x, ) больше значения s(x, z2). Следует, однако, отметить, что использование данной меры сходства связано определенными ограничениями, например такими, как достаточное отстояние кластеров друг от друга и от начала координат.
3) Нашла широкое распространение в информационном поиске, нозологии
(классификации болезней) и таксономии (классификации видов животных и растений), так называемая мера Танимато, определяемая как