Задачи Data Mining. Классификация. Кластеризация. Ассоциация. Последовательная ассоциация

Задачи (tasks) Data Mining называют также закономерностями (regularity) или техниками (techniques).

Наиболее распространенные задачи Data Mining:

· классификация,

· кластеризация,

· ассоциация,

· прогнозирование

· визуализация

· анализ и обнаружение отклонений,

· оценивание,

· анализ связей, подведение итогов.

Классификация (Classification)

Наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных – классы. По этим признакам новый объект можно отнести к тому или иному классу.

Методы решения. Для решения задачи классификации могут использоваться методы:

· ближайшего соседа (Nearest Neighbor);

· k-ближайшего соседа (k-Nearest Neighbor);

· байесовские сети (Bayesian Networks);

· индукция деревьев решений;

· нейронные сети (neural networks).

Кластеризация (Clustering)

Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Пример метода решения задачи кластеризации: обучение “без учителя” особого вида нейронных сетей – самоорганизующихся карт Кохонена.

Ассоциация (Associations)

В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.

Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.

Наиболее известный алгоритм решения задачи поиска ассоциативных правил – алгоритм Apriori.

Последовательность (Sequence), или последовательная ассоциация (sequential association)

Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени).

Таким образом, последовательность определяется высокой вероятностью цепочки связанных во времени событий.

Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю.

Данную задачу Data Mining также называют задачей нахождения последовательных шаблонов (sequential pattern).

Правило последовательности: после события X через определенное время произойдет событие Y.

Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор.

Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management).


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: