Типы закономерностей, которые позволяют выявлять методы DataMining

Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из ”завалов” информации. За этим направлением прочно закрепился термин добыча знаний или DataMining. DataMining – исследование и обнаружение в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком. Основными задачами анализа данных являются: · классификация; · регрессия; · поиск ассоциативных правил; · кластеризация; · прогнозирование. Задача классификации сводится к определению класса объекта по его характеристикам. При этом множество классов, к которым может быть отнесен объект, заранее известно. Примером задачи классификации является задача фильтрации электронной почты. В этом случае программа должна классифицировать входящее сообщение как спам или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов. В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10. В такой задаче объектом классификации является матрица пикселей, представляющая образ распознаваемой цифры. При этом цвет каждого пикселя является характеристикой объекта. В DataMining задачу классификации рассматривают как задачу определения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении, – независимыми переменными. В рассмотренных примерах независимыми переменными являлись частота определения слов и значения цвета пикселей матрицы. Зависимыми переменными в этих примерах являлись тип сообщения и цифра образа. При этом зависимая переменная принимала значение из конечного множества значений: {спам, не спам}, {0,1,…,9}. Если значениями независимых и зависимой переменных является множество действительных чисел, то задача называется задачей регрессии. Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, – это неудовлетворительное качество исходных данных, а также так называемые проблемы overfitting и underfitting. Суть первой из них заключается в том, что классификационная функция “слишком хорошо” адаптируется к данным, и встречающиеся в них ошибки пытается интерпретировать как часть данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено. При поиске ассоциативных правил целью является нахождение частых зависимостей между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий. Первоначально данная задача решалась при анализе тенденций в поведении покупателей в супермаркетах. Анализу подвергались данные о совершаемых ими покупках, которые покупатели складывают в тележку. При анализе этих данных интересовала информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании и т.д. Например, из набора покупок, совершаемых в магазине, можно выделить следующие наборы товаров, которые покупаются вместе: {чипсы, пиво}; {сухарики, пиво}. Следовательно, можно сделать вывод, что если покупаются чипсы или сухарики, то, как правило, покупается пиво. Обладая такими знаниями, можно разместить эти товары рядом или предпринять другие действия, стимулирующие покупателя приобрести товар. Разновидностью задачи поиска ассоциативных правил является задача обнаружения закономерностей в последовательности происходящих событий. Такая задача называется сиквенциальным анализом и позволяет с некоторой долей вероятности предсказывать появление событий в будущем, что позволяет принимать более правильные решения. Например, после покупки квартиры жильцы в 60 % случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50 % случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (CustomerLifecycleManagement). Задача кластеризации состоит в разделении исследуемого множества объектов на группы “похожих” объектов, называемых кластерами. Слово «кластер» переводится как сгусток, пучок, группа. Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом. Например, в маркетинге задача кластеризации применяется для сегментации рынка. Концептуально сегментирование основано на предпосылке, что все потребители разные. У них разные потребности, разные требования к товару, они ведут себя по-разному: в процессе выбора товара, в процессе приобретения товара и т. д. В связи с этим необходимо по-разному подходить к работе с потребителями: предлагать им различные по своим характеристикам товары, по-разному их продвигать и продавать. Для того чтобы определить, чем отличаются потребители друг от друга и как эти отличия отражаются на требованиях к товару, и производится сегментирование потребителей. На основании результатов сегментации маркетолог может определить, например, такие характеристики сегментов рынка, как реальная и потенциальная емкость сегмента, группы потребителей, чьи потребности не удовлетворяются в полной мере ни одним производителем, работающим на данном сегменте рынка, и т.п. На основании этих параметров маркетолог может сделать вывод о привлекательности работы фирмы в каждом из выделенных сегментов рынка. Кластеризация отличается от классификации тем, что вместо различий между объектами ищутся группы наиболее близких, похожих объектов. Кластерный анализ позволяет резко сокращать большой объем информации, сжимать большие массивы информации, делать их компактными и наглядными. В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Все многообразие методов DataMining можно разделить на две группы: статистические и кибернетические. Статистические методы DataMining представляют собой четыре взаимосвязанных раздела: · предварительный анализ статистических; · выявление связей и закономерностей; · многомерный статистический; · динамические модели и прогноз на основе временных рядов. Второе направление DataMining - это множество подходов, объединенных идеей использования теории искусственного интеллекта. К этой группе относятся следующие основные методы: · искусственные нейронные сети (ИНС) (распознавание, классификация, кластеризация, прогноз); · генетические алгоритмы (оптимизация); · нечеткая логика; · системы обработки экспертных знаний. Наиболее универсальный аппарат для решения различных задач DataMining предоставляют искусственные нейронные сети. ИНС - это математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма. Нейронная сеть подвергается так называемому обучению. Возможность обучения - одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении весовых коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными и выходными данными, а также выполнять обобщение. Это значит, что в случае успешного обучения сеть сможет вернуть верный результат на основании данных, которые отсутствовали в обучающей выборке, а также неполных и/или «зашумленных», частично искаженных данных. При применении ИНС прежде всего встает вопрос выбора конкретной архитектуры сети (числа “слоев” и количества “нейронов” в каждом из них). Размер и структура сети должны соответствовать сложности исследуемой задачи. Поскольку на начальном этапе анализа природа явления обычно известна плохо, выбор архитектуры является непростой задачей и часто связан с длительным процессом ”проб и ошибок”. Одно из главных преимуществ нейронных сетей состоит в том, что они, теоретически, могут аппроксимировать любую непрерывную функцию, и поэтому исследователю нет необходимости заранее принимать какие-либо гипотезы относительно модели и даже, в ряде случаев, о том, какие переменные действительно важны. Однако существенным недостатком нейронных сетей является то обстоятельство, что окончательное решение зависит от начальных установок сети и его практически невозможно интерпретировать аналитически. Генетические алгоритмы (ГА) – это адаптивные методы поиска, которые в последнее время часто используются для решения задач оптимизации. Они основаны на генетических процессах биологических организмов: биологические популяции развиваются в течение нескольких поколений, подчиняясь законам естественного отбора и по принципу “выживает наиболее приспособленный”, открытому Чарльзом Дарвином. Подражая этому процессу, генетические алгоритмы способны получать решения реальных задач, если те соответствующим образом закодированы. ГА работают с совокупностью “особей” – популяцией; каждая особь представляет возможное решение проблемы и оценивается мерой "приспособленности" согласно тому, насколько “хорошим” является соответствующее ей решение задачи. Наиболее приспособленные особи получают возможность “воспроизводить” потомство с помощью “перекрестного скрещивания” с другими особями популяции. Это приводит к появлению новых особей, которые сочетают в себе некоторые характеристики, наследуемые ими от родителей. Так и воспроизводится вся новая популяция допустимых решений, выбирая лучших представителей предыдущего поколения, скрещивая их и получая множество новых особей. Это новое поколение содержит более высокое соотношение характеристик, которыми обладают хорошие члены предыдущего поколения. Таким образом, из поколения в поколение хорошие характеристики распространяются по всей популяции. Скрещивание наиболее приспособленных особей приводит к тому, что исследуются наиболее перспективные участки пространства поиска. В конечном итоге популяция будет сходиться к оптимальному решению задачи. В начале 90-х годов прошлого столетия рынок DataMining насчитывал около десятка поставщиков. В средине 90-х число поставщиков насчитывало более 50 фирм. Сейчас к технологии DataMining проявляется огромный интерес. На этом рынке работают множество фирм, ориентированных на создание инструментов DataMining, а также комплексного внедрения DataMining, OLAP и хранилищ данных. Инструменты DataMining во многих случаях рассматриваются как составная часть BI-платформ, в состав которых также входят средства построения хранилищ и витрин данных, средства обработки запросов (ad-hoc), средства отчетности (reporting), а также инструменты OLAP. Инструменты DataMining могут быть представлены либо как самостоятельное приложение, либо как дополнения к основному продукту. Последний вариант реализуется многими лидерами рынка программного обеспечения. Так, уже стало традицией, что разработчики универсальных статистических пакетов, в дополнение к традиционным методам статистического анализа, включают в пакет определенный набор методов DataMining. Наиболее известный представитель свободно распространяемого набора инструментов - пакет Weka. Weka представляет собой набор алгоритмов машинного обучения для решения DataMining-проблем. Weka написана на Java и запускается практически на всех платформах. Другим известным свободно распространяемым продуктом является пакет Apriori, инструмент для нахождения ассоциативных правил при помощи одноименного алгоритма Аpriori

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: