Этапы исследования данных с помощью методов Data Mining
1. Приведение данные к форме, пригодной для применения конкретных реализаций систем Data Mining.
2. Предварительная обработка данных с одинаковыми значениями для всех колонок.
3. Применение методов Data Mining.
4. Верификация и проверка получившихся результатов.
5. Интерпретация.
Методы Data Mining
1) Кластеризация
Позволяет разделить изучаемую совокупность объектов на группы «схожих» объектов, разнести записи в различные группы, или сегменты.
К недостаткам кластеризации следует отнести зависимость результатов от выбранного метода кластеризации и методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры.
(Предметно-ориентированные аналитические системы, к.п., $300 – $1000).
2) Ассоциация
Ассоциация, или метод «корзины покупателя», является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом.
|
|
имеют форму:
если {условие}, то {результат}.
Примером такого правила, служит утверждение, что абонент, использующий услугу А, будет использовать услугу Б.
система WizWhy (WizSoft) (стоимость системы около $4000).
Деревья решений
При данном методе правила представляются в виде последовательной иерархической структуры, называемой деревом решений, при которой каждый уровень дерева включает проверку (test) определённой независимой переменной.
Иерархические структуры деревьев решений весьма наглядны. Их выразительная мощность в значительной степени определяется множеством, в котором ищутся критерии расщепления узлов.
Самыми известными являются See5/C5.0 (Австралия), Clementine (Integral Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), Knowledge SEEKER (ANGOSS, Канада). Стоимость этих систем варьируется от $1000 до $10000.
4) Метод «ближайших соседей»
Цель данного метода заключается в том, чтобы предсказать значение зависимой переменной для некоторой записи из определенного массива, для которого известны значения как зависимой, так и независимой переменных. Для этого в этом массиве записей, выбирается запись, наиболее «близкая» к той, для которой необходимо сделать предсказание, и она интерпретируется как искомая зависимая переменная.
Примеры систем, использующих данный метод, – КАТЕ tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).
Нейронные сети
Нейронная сеть представляет из себя структуру, состоящую из узлов и связей между ними. Причем, для того чтобы данную сеть можно было бы применять в дальнейшем, её прежде надо «настроить» с использованием полученных ранее данных, содержащих значения входных и выходных параметров (правильные ответы). Настройка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.
|
|
Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний – их «непрозрачность». Построенная модель, как правило, не имеет четкой интерпретации (концепции «черного ящика»).
Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500 – $8000.
6) Нечеткая логика
Нечеткая логика] применяется для анализа таких наборов данных, когда невозможно причислить данные к какой-либо группе и возникает необходимость манипулировать категорией «может быть» в дополнении к «да» и «нет».
Генетические алгоритмы
Генетические алгоритмы обладают ярко выраженным свойством создания нового знания. Интуитивный анализ генетического алгоритма помогает выявить аналогии между искусственной генетической системой и свойственными человеческому интеллекту процессами, обычно называемыми творческими и инновационными (направленными на создание новшеств).
Одним из недостатком данного метода заключается в том, что критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения «лучшего» решения. Это становится особенно заметным при решении высокоразмерных задач со сложными внутренними связями.
Примером может служить система GeneHunter (Ward Systems Group). Её стоимость – около $1000.