Извлечение знаний из данных

Понятие Data Mining

Термин Data Mining получил свое название из двух понятий: поиск ценной информации в большой базе данных и добыча горной руды. Оба процесса требуют или просеивания огромного количества сырого материала или разумного исследования и поиска искомых ценностей.

Интеллектуальный анализ данных – средство поиска закономерностей и так далее.

Понятие Data Mining приобрело современную трактовку в 90х годах. До этого времени обработка и анализ данных осуществлялись при помощи метода прикладной статистики. При этом решались задачи обработки небольших баз данных.

Суть и цель технологии Data Mining можно охарактеризовать: это технология, которая предназначена для поиска больших объемов данных неочевидных объективных и полезных на практике закономерностей.

Неочевидных – значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем.

Объективных – значит, обнаруженные закономерности будут полностью соответствовать действительности в отличие от экспертного мнения, которое субъективно.

В основу технологии Data Mining положена концепция шаблонов которые представляют собой закономерности свойственных подвыборкам данных и могут быть выражены в форме, удобной для человека.

Цель поиска закономерностей – это представление данных в виде, отражающем искомые процессы. Построение модели прогнозирования тоже является целью поиска закономерностей.

Методы и алгоритмы Data Mining

Сюда можно отнести:

1) Искусственные нейронные сети;

2) Деревья решений;

3) Символьные правила;

4) Методы ближайшего соседа;

5) Метод опорных векторов;

6) Байесовские сети;

7) Линейная регрессия;

8) Корреляционно – регрессионный анализ;

9) Кластерный анализ;

10) Методы поиска ассоциативных правил, например алгоритм «априори»;

11) Метод ограниченного перебора;

12) Эволюционное программирование;

13) Генетические алгоритмы;

В технологии Data Mining объединились строго формализованные методы и методы неформального анализа.

Большинство аналитических методов, используемых в технологии Data Mining это известные математические алгоритмы и методы. Новым в их применении является возможность их использования при решении конкретных проблем с помощью новых технических или программных средств.

Большинство методов Data Mining были разработаны в рамках теории искусственного интеллекта.

Стадии Data Mining (2 или 3 стадии);

Стадия1: Выявление закономерностей или свободный поиск; После может быть включена стадия Валидации – цель – проверка достоверности найденных закономерностей.

Стадия2: Использование выявленных закономерностей для предсказания неизвестных значений (Прогностическое программирование);

Стадия3: Анализ исключений;

Свободный поиск:

Закономерность – это существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления и развития различных процессов или явлений.

Свободный поиск представлен следующими действиями:

1) Выявление закономерностей целевой логики;

2) Выявление закономерностей ассоциативной логики;

3) Выявление трендов и колебаний;

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: