Генетические алгоритмы

1 2

Этапы исследования данных с помощью методов Data Mining

1. Приведение данные к форме, пригодной для применения конкретных реализаций систем Data Mining.

2. Предварительная обработка данных с одинаковыми значениями для всех колонок.

3. Применение методов Data Mining.

4. Верификация и проверка получившихся результатов.

5. Интерпретация.

Методы Data Mining

1) Кластеризация

Позволяет разделить изучаемую совокупность объектов на группы «схожих» объектов, разнести записи в различные группы, или сегменты.

К недостаткам кластеризации следует отнести зависимость результатов от выбранного метода кластеризации и методы кластерного анализа не дают какого-либо способа для проверки достоверности разбиения на кластеры.

(Предметно-ориентированные аналитические системы, к.п., $300 – $1000).

2) Ассоциация

Ассоциация, или метод «корзины покупателя», является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом.

имеют форму:

если {условие}, то {результат}.

Примером такого правила, служит утверждение, что абонент, использующий услугу А, будет использовать услугу Б.

система WizWhy (WizSoft) (стоимость системы около $4000).

Деревья решений

При данном методе правила представляются в виде последовательной иерархической структуры, называемой деревом решений, при которой каждый уровень дерева включает проверку (test) определённой независимой переменной.

Иерархические структуры деревьев решений весьма наглядны. Их выразительная мощность в значительной степени определяется множеством, в котором ищутся критерии расщепления узлов.

Самыми известными являются See5/C5.0 (Австралия), Clementine (Integral Solutions,Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), Knowledge SEEKER (ANGOSS, Канада). Стоимость этих систем варьируется от $1000 до $10000.

4) Метод «ближайших соседей»

Цель данного метода заключается в том, чтобы предсказать значение зависимой переменной для некоторой записи из определенного массива, для которого известны значения как зависимой, так и независимой переменных. Для этого в этом массиве записей, выбирается запись, наиболее «близкая» к той, для которой необходимо сделать предсказание, и она интерпретируется как искомая зависимая переменная.

Примеры систем, использующих данный метод, – КАТЕ tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США).

Нейронные сети

Нейронная сеть представляет из себя структуру, состоящую из узлов и связей между ними. Причем, для того чтобы данную сеть можно было бы применять в дальнейшем, её прежде надо «настроить» с использованием полученных ранее данных, содержащих значения входных и выходных параметров (правильные ответы). Настройка состоит в подборе весов межнейронных связей, обеспечивающих наибольшую близость ответов сети к известным правильным ответам.

Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний – их «непрозрачность». Построенная модель, как правило, не имеет четкой интерпретации (концепции «черного ящика»).

Примеры нейросетевых систем – BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL (HyperLogic). Стоимость их довольно значительна: $1500 – $8000.

6) Нечеткая логика

Нечеткая логика] применяется для анализа таких наборов данных, когда невозможно причислить данные к какой-либо группе и возникает необходимость манипулировать категорией «может быть» в дополнении к «да» и «нет».

Генетические алгоритмы

Генетические алгоритмы обладают ярко выраженным свойством создания нового знания. Интуитивный анализ генетического алгоритма помогает выявить аналогии между искусственной генетической системой и свойственными человеческому интеллекту процессами, обычно называемыми творческими и инновационными (направленными на создание новшеств).

Одним из недостатком данного метода заключается в том, что критерий отбора хромосом и используемые процедуры являются эвристическими и далеко не гарантируют нахождения «лучшего» решения. Это становится особенно заметным при решении высокоразмерных задач со сложными внутренними связями.

Примером может служить система GeneHunter (Ward Systems Group). Её стоимость – около $1000.