Лабораторная работа № 4

Кластерная обработка данных (карты Кохонена)

Цельработы. Научиться использовать метод кластерной обработки данных в виде самоорганизующихся карт Кохонена».

Теоретическая часть. Существуют задачи анализа данных, которые затруднительно представить в числовой форме. При этом нужно извлечь данные, принципы отбора которых заданы нечетко: выделить надежных партнеров, определить перспективный товар и т.п. Также необходимо на основании имеющихся априорных данных получить прогноз на дальнейший период. Существует метод, позволяющий автоматизировать все действия по поиску закономерностей – метод анализа с использованием самоорганизующихся карт Кохонена.

Самоорганизующаяся карта Кохонена (англ. Self-organizing map — SOM) — нейронная сеть с обучением без учителя, выполняющая задачу визуализации

и кластеризации. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего

двумерное), применяется также для решения задач моделирования, прогнозирования и др.

Каждый объект характеризуется набором различных параметров, описывающих его состояние. Например, параметрами будут данные из финансовых отчетов. Эти параметры часто имеют числовую форму или могут быть приведены к ней. Таким образом, нам надо на основании анализа параметров объектов выделить схожие объекты и представить результат в форме, удобной для восприятия. Эти задачи решаются самоорганизующимися картами Кохонена.

Пусть объект расположен в трехмерном пространстве. Тогда каждый объект

с признаками можно представить в виде точки в данном пространстве, и пронормировать эти признаки в интервал [0,1]), в результате чего все точки попадут в куб единичного размера. Отобразим эти точки.

Расположение объектов в пространстве

На рисунке видно, как расположены объекты в пространстве, причем легко заметить участки, где объекты группируются, т.е. у них схожи параметры, значит, и сами эти объекты, скорее всего, принадлежат одной группе. Но так можно поступить только в случае, когда признаков немного. Значит, надо найти способ, преобразующий данную систему в простую для восприятия, желательно двумерную систему (потому что уже трехмерную картинку

невозможно корректно отобразить на плоскости) так, чтобы соседние в искомом пространстве объекты оказались рядом и на полученной картинке. Для этого используем самоорганизующуюся карту Кохонена. В первом приближении ее можно представить в виде «гибкой» сети. Предварительно «скомкав», бросаем сеть в пространство признаков, где уже имеются объекты, и далее поступаем следующим образом: берем один объект (точку в этом пространстве) и находим ближайший к нему узел сети. После этого узел подтягивается к объекту (т.к. сетка «гибкая», то вместе с этим узлом так же, но с меньшей силой подтягиваются и соседние узлы). Затем выбирается другой объект (точка), и процедура повторяется. В результате получется карта, расположение узлов которой совпадает с расположением основных скоплений объектов в исходном пространстве. Полученная карта обладает следующим замечательным свойством – узлы ее расположились таким образом, что объектам, похожим между собой, соответствуют соседние узлы карты. Теперь находим, какие объекты попали в какие узлы карты. Это также определяется ближайшим узлом – объект попадает в тот узел, который находится ближе к нему.

Вид пространства после наложения карты

В результате данных операций объекты со схожими параметрами попадут

в один узел или в соседние узлы. Хотя задача поиска похожих объектов и их

группировки решена, но на этом возможности карт Кохонена не

заканчиваются. Они позволяют также представить полученную информацию

в простой и наглядной форме путем нанесения раскраски полученной карты (точнее ее узлы) цветами, соответствующими интересующим нас признакам объектов.

Также можно получить информацию о зависимостях между параметрами. Нанеся на карту раскраску, соответствующую различным статьям отчетов, можно получить так называемый атлас, хранящий в себе информацию о состоянии рынка. Можно анализировать, сравнивать расположение цветов на раскрасках, порожденных различными параметрами, тем самым получая все новую информацию.

При всем этом описанная технология является универсальным методом анализа. С ее помощью можно анализировать различные стратегии деятельности, производить анализ результатов маркетинговых исследований, проверять кредитоспособность клиентов и т.д.

Ход работы

Импортируйте в АП «Deductor» исходные данные.

Процесс построения карты Кохонена состоит из 10 этапов.

Запустите мастер обработки, в котором в разделе «Data Mining» выберете способ обработки данных «Карта Кохонена», нажмите «Далее». В окне настройки назначения столбцов необходимо обозначить столбцы «Код» и «№ паспорта» как «Неиспользуемые» (так как значения этих столбцов уникальны, а это не позволит их классифицировать по общим признакам). Определите поле «Давать кредит» как «Выходное

Пример настройки назначений столбцов

Настройку обучающей выборки и параметров карты Кохонена можно оставить без изменений.

Настройка параметров карты Кохонена

Настройте параметры остановки обучения, указав уровень допустимой погрешности, если он будет превышен, анализ данного множества будет прекращен. Можно оставить значения «по умолчанию».

Настройка параметров остановки обучения.

Настройку параметров обучения также оставьте без изменений. Далее запустите процесс построения карты Кохонена, нажав кнопку «Пуск».

Итог построения карты Кохонена

На вкладке «Выбор способа отображения данных» поставьте галочку напротив пункта «Самоорганизующаяся карта Кохонена». Теперь необходимо провести настройку отображения карты:

отметьте разделы «Давать кредит» и «Кластеры» и другие разделы – по желанию.