Введение в технологию Data Mining

Data Mining

Выводы по обзору программного обеспечения

Базовая OLAP-функциональность сегодня стала товаром и востребована всеми сегментами OLAP-рынка. Средства OLAP встроены в большинство популярных СУБД, а программные интерфейсы взаимодействия с OLAP-модулями, такие как Microsoft OLE DB for OLAP, стали фактическими стандартами для лицензирования и встраивания OLAP-серверов Коммерческие продукты, дающие возможность обращаться к OLAP-ядру с любой пользовательской платформы, обычно строятся на Java, ActiveX или CORBA.

Одной из слабых сторон в реализации технологии хранилищ данных является то, что производители продуктов для хранилищ данных часто в большей степени ориентированы на поддержку технологии, а не на построение бизнес-решений.

Другая проблема в реализации систем хранилищ данных —концентрация основных усилий производителей на заполнении хранилища, в ущерб средствам доступа к нему. В результате тщательно очищенные данные погружались в хранилище данных, но из-за слабости средств доступа они не могли быть полноценно использованы.


14 ЛЕКЦИЯ 2 ЧАСА

Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Дело в том, что человеческий разум сам по себе не приспособлен для восприятия больших массивов разнородной информации. Человек к тому же не способен улавливать более двух-трех взаимосвязей даже в небольших выборках. Но и традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, также нередко пасует при решении задач из реальной сложной жизни. Она оперирует усредненными характеристиками выборки, которые часто являются фиктивными величинами (типа средней температуры пациентов по больнице и т.п.). Поэтому методы математической статистики оказываются полезными главным образом для проверки заранее сформулированных гипотез.

Современные технологии Data Mining «перелопачивают» информацию с целью автоматического поиска шаблонов, характерных для каких-либо фрагментов неоднородных многомерных данных. В отличие от оперативной аналитической обработки данных (OLAP) в Data Mining бремя формулировки гипотез и выявления необычных шаблонов переложено с человека на компьютер.

Таблица 1. Примеры формулировок задач при использовании методов OLAP и Data Mining

OLAP Data Mining
Каковы средние показатели травматизма для курящих и некурящих? Какие факторы лучше всего предсказывают несчастные случаи?
Каковы средние размеры телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов (отказавшихся от услуг телефонной компании)? Какие характеристики отличают клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании?
Какова средняя величина ежедневных покупок по украденной и неукраденной кредитной карточке? Какие схемы покупок характерны для мошенничества с кредитными карточками?

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: