Понятие Data Mining
Термин Data Mining получил свое название из двух понятий: поиск ценной информации в большой базе данных и добыча горной руды. Оба процесса требуют или просеивания огромного количества сырого материала или разумного исследования и поиска искомых ценностей.
Интеллектуальный анализ данных – средство поиска закономерностей и так далее.
Понятие Data Mining приобрело современную трактовку в 90х годах. До этого времени обработка и анализ данных осуществлялись при помощи метода прикладной статистики. При этом решались задачи обработки небольших баз данных.
Суть и цель технологии Data Mining можно охарактеризовать: это технология, которая предназначена для поиска больших объемов данных неочевидных объективных и полезных на практике закономерностей.
Неочевидных – значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.
Объективных – значит, обнаруженные закономерности будут полностью соответствовать действительности в отличие от экспертного мнения, которое субъективно.
|
|
В основу технологии Data Mining положена концепция шаблонов которые представляют собой закономерности свойственных подвыборкам данных и могут быть выражены в форме, удобной для человека.
Цель поиска закономерностей – это представление данных в виде, отражающем искомые процессы. Построение модели прогнозирования тоже является целью поиска закономерностей.
Методы и алгоритмы Data Mining
Сюда можно отнести:
1) Искусственные нейронные сети;
2) Деревья решений;
3) Символьные правила;
4) Методы ближайшего соседа;
5) Метод опорных векторов;
6) Байесовские сети;
7) Линейная регрессия;
8) Корреляционно – регрессионный анализ;
9) Кластерный анализ;
10) Методы поиска ассоциативных правил, например алгоритм «априори»;
11) Метод ограниченного перебора;
12) Эволюционное программирование;
13) Генетические алгоритмы;
В технологии Data Mining объединились строго формализованные методы и методы неформального анализа.
Большинство аналитических методов, используемых в технологии Data Mining это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении конкретных проблем с помощью новых технических или программных средств.
Большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.
Стадии Data Mining (2 или 3 стадии);
Стадия1: Выявление закономерностей или свободный поиск; После может быть включена стадия Валидации – цель – проверка достоверности найденных закономерностей.
Стадия2: Использование выявленных закономерностей для предсказания неизвестных значений (Прогностическое программирование);
|
|
Стадия3: Анализ исключений;
Свободный поиск:
Закономерность – это существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления и развития различных процессов или явлений.
Свободный поиск представлен следующими действиями:
1) Выявление закономерностей целевой логики;
2) Выявление закономерностей ассоциативной логики;
3) Выявление трендов и колебаний;