Кластеризация при равном весе входных атрибутов

1) Импортировать в Deductor набор данных из файлов mobile.txt.

2) Запустить Мастер обработки и выбрать узел Карта Кохонена.

Установить все поля, кроме Код входными (рис. 8.10).

Рисунок 8.10 – Настройка назначений столбцов

На этой же вкладке нажмите кнопку Настройка нормализации. При этом откроется окно, где можно будет задать значимость каждого входного поля. Для начала значимость всех полей надо оставить без изменения.

3) Перейти ко второму шагу – разбиение исходного набора данных на подмножества. В обучающем множестве необходимо оставить 100 % записей, поскольку в алгоритме Кохонена необходимость в выделении отдельного тестового множества отсутствует (рис. 8.11).

4) Перейти к четвертому шагу – настройка параметров карты Кохонена. Выбираем размер сетки 24x18, общее число элементов составляет теперь 432 (рис. 8.12).


Рисунок 8.11 – Разбиение исходного набора данных на подмножества

Рисунок 8.12 – Настройка параметров карты Кохонена

5) На шаге Настройка параметров установки обучения изменить настройки обучения в соответствии с рисунком (рис. 8.13).

Далее установить фиксированное число кластеров – 6 (рис. 8.14).


Рисунок 8.13 – Настройка параметров установки обучения

Рисунок 8.14 – Настройка параметров установки обучения

6) Выполнить построения карты Кохонена, нажав кнопку Пуск

(рис. 8.15).


Рисунок 8.15 – Построение карты Кохонена

7) После того, как карта была получена, перейти к следующему шагу. В качестве способа визуализации выбрать Карта Кохонена и Профили кластеров.

! Процесс займет некоторое время.

8) На последнем шаге выполняется настройка отображений карты Кохонена (рис. 8.16). Здесь следует выбрать все входные столбцы и некоторые специальные (Матрица ошибок квантования, Матрица плотности попадания и Кластеры).

9) На следующем рисунке приведены карты Кохонена для всех выбранных столбцов. Каждая ячейка карты соответствующей характеристики окрашена в цвет, теплота которого пропорциональна среднему арифметическому значений этой характеристики для всех абонентов, которые были к ней отнесены. Темно-синий цвет соответствует


минимальному значению из всех средних арифметических, а красный

максимальному (рис. 8.17).

Рисунок 8.16 – Настройка отображений карты Кохонена

Рассматривая карты можно выделить группы абонентов, которые явно сгруппированы по каким-либо признакам, и сделать вывод об особенностях и предпочтениях этих людей в сфере услуг мобильной связи. Так, на карте

«Возраст» можно выделить группу людей среднего и пожилого возраста и убедиться в том, что они практически не пользуются SMS-сообщениями, но при этом для них характерно среднее число вечерних звонков – около 70 за месяц.

Если выделить конкретную ячейку, то по ней можно посмотреть детализацию – получить список тех абонентов, которые были к ней отнесены, и получить их общую статистику. Так, если выбрать правую нижнюю ячейку, которой соответствует максимальное среднее число SMS- сообщений в месяц, то после установки параметра фильтра По ячейке в окне детализации , мы получим список из девяти абонентов с полной детализацией их характеристик (рис. 8.18).

Для получения статистики следует выбрать способ отображения Статистика в окне детализации и выполнить настройку ее параметров (из контекстного меню) – оставить гистограмму, среднее и стандартное отклонение. Остальные поля – убрать (рис. 8.19).


Рисунок 8.17 – Карты Кохонена для всех выбранных столбцов


Рисунок 8.18 – Пример детализации по выбранной ячейке


Рисунок 8.19 – Настройка параметров отображения Статистика

Также можно выполнить и настройку формата отображения данных

(также из контекстного меню) (рис. 8.20).

Рисунок 8.20 – Настройку формата отображения данных

Результат представлен на следующем рисунке (рис. 8.21).

Видно, что средний возраст этой группы абонентов составляет

30 лет, среднемесячный расход 1 067 руб., примерно одинаковое число звонков днем и вечером за месяц, в среднем в месяц они отправляют по 172 SMS-сообщения.


10) Попробуем самостоятельно выделить кластер и провести по нему анализ. Для этого нужно переключится в режим выделения и указать ячейки на карте, которые должны быть отнесены к выделенной области. Выделим область, для которой характерна относительно большое число звонков в другие страны (рис. 8.22).

Рисунок 8.21 – Результат анализа статистики


Рисунок 8.22 – Выделение области для анализа

Согласно статистике, средний возраст этой группы людей составляет 41 год, для них характерен высокий среднемесячный расход – 2 374 руб., они практически не пользуются SMS-сообщениями и в среднем в день совершают по 10 исходящих звонков продолжительностью по 10 минут (рис. 8.23).

Детализация по выделенной группе абонентов приведена на следующем рисунке (рис. 8.24).

11) Выделим другой кластер – по возрастной группе (рис. 8.25). Для этого следует очистить предыдущее выделение и выделить ячейки, которым соответствует большое значение возраста абонентов. Детализация и статистика по выделенной группе приведена ниже. Видно, что средний возраст этой группы абонентов составляет 65 лет, среднемесячный расход составляет

44 руб., они совершают очень мало исходящих звонков со средней продолжительностью 2 минуты и не пользуются SMS-сообщениями (рис. 8.26).


Рисунок 8.23 – Результат статистики области для анализа

Рисунок 8.24 – Детализация статистики области для анализа


Рисунок 8.25 – Выбор кластера по возрастной группе

Рисунок 8.26 – Детализация статистики кластера по возрастной группе


Выполните оценку приведенной статистики.

12) Использование профилей кластеров для получения сводной оценки карт Кохонена.

Перейдя на соответствующую вкладку

вы можете переименовать кластеры и настроить их сортировку в соответствии с имеющимися приоритетами. Здесь была выполнена следующая настройка (рис. 8.27):

– переименование кластеров (акцент был сделан на возрастную характеристику);

– настройка отображения кластеров (выделены только именные кластеры) (рис. 8.29);

– настройка сортировки кластеров (рис. 8.30).

Рисунок 8.27 – Статистика кластера по возрастной группе


Рисунок 8.28– Переименование кластеров

Рисунок 8.29 – Настройка отображения кластеров

Рисунок 8.30 – Настройка сортировки кластеров

Результат приведен на рис. 8.31.


Рисунок 8.31 – Оценка приведенной статистики

Сохраните результат в файле L8_2.ded.


2.2. Кластеризация при различных весах входных атрибутов. Акцент на выделении кластера Активная молодеж ь

1) Импортировать в Deductor набор данных из файлов mobile.txt.

2) Запустить Мастер обработки и выбрать узел Карта Кохонена.

Выполнить настройку нормализации входных столбцов (наиболее значимыми будут поля Возраст, Звонков ночью за месяц и Количество SMS за месяц) (рис. 8.32).

Рисунок 8.32 – Настройка нормализации данных

Большие значения в двух последних указанных полях как раз и должны характеризовать группу абонентов «Активная молодежь», поскольку для них характерны активное пользование SMS-сообщениями и звонки в ночное время.

Настроить карту Кохонена с параметрами из предыдущего примера.

3) Проанализировав полученные карты, самостоятельно выделить кластер Активная молодежь (много ночных разговоров, много SMS, юный возраст) (рис. 8.33).

Получить статистику по полученному выделению.


4) Выполнить автоматическую кластеризацию абонентов (рис. 8.35), воспользовавшись кнопкой , принудительно установив число кластеров, равным 3 (рис. 8.34).

Рисунок 8.33 – Полученные карты Кохонена

Рисунок 8.34 – Настройка кластеров Рисунок 8.35 – Кластеризация абонентов

Обратите внимание, что один из кластеров явно соответствует группе

Активная молодежь.


5) Получить статистику по интересующему нас кластеру (рис. 8.36), настроить и проанализировать профили кластеров (рис. 8.37).

Рисунок 8.36 – Статистика по кластеру Рисунок 8.37 – Оценка статистики по заданному кластеру

6) Получить карты Кохонена, делая акцент на формировании кластера VIP-клиенты – самые высокие расходы, продолжительные разговоры, частые международные звонки, много разговоров в рабочее время.

Сохраните результат в файле L8_2.ded.


2.3. Кластеризация при ограничении набора входных атрибутов. Акцент на выделении кластера Активная молодеж ь

1) Импортировать в Deductor набор данных из файлов mobile.txt

2) Запустить Мастер обработки и выбрать узел Карта Кохонена.

Выбрать в качестве входных параметров поля Возраст, Звонков ночью за месяц и Количество SMS за месяц, остальные поля сделать выходными (рис. 8.38).

Рисунок 8.38 – Настройка назначений столбцов

3) Настроить параметры обучения как в предыдущих примерах. И запустить процесс построения карты Кохонена.

4) Проанализировав полученные карты, самостоятельно выделить кластер Активная молодежь (много ночных разговоров, много SMS, юный возраст) (рис. 8.39).

Получить статистику по полученному выделению. Обратите внимание на однородность заполнения ячеек выходных полей. Какой вывод можно из этого сделать? Предложить данной группе абонентов оптимальный тарифный план.

5) Выполнить автоматическую кластеризацию абонентов,

принудительно установив число кластеров, равным 3 (рис. 8.40).

Обратите внимание, что один из кластеров близок к той группе, которую мы выделяли ранее.


Рисунок 8.39 – Полученные карты Кохонена

Рисунок 8.40 – Автоматическая кластеризация абонентов


6) Получить статистику по интересующему нас кластеру (рис. 8.41), настроить и проанализировать профили кластеров.

Рисунок 8.41 – Статистика по заданному кластеру


7) Получить карты Кохонена, делая акцент на формировании кластера

«VIP-клиенты» – самые высокие расходы, продолжительные разговоры, частые международные звонки, много разговоров в рабочее время.

Сохраните результат в файле L8_2.ded.

Вопросы для проверки

1. Как выделить множество ячеек на карте и посмотреть объекты, попавшие в них?

2. Как поставить текстовую метку на ячейке?

3. Как проще всего посмотреть статистику по объектам, попавшим в ячейку?

4. Какой кластер в приведенной бизнес-задаче, скорее всего, не удалось бы обнаружить при масштабе карты 16x12?

5. В каких случаях следует задавать значимость входных полей?

6. Как карта Кохонена может использоваться в задаче восстановления пропусков в данных? Опишите шаги, необходимые для этого.

7. Почему при кластеризации в обработчике Карта Кохонена могут быть выходные поля? Каково их предназначение?

8. В каком случае для карты Кохонена лучше установить цветовую палитру в серых тонах? Почему?

9. Как сегментируются покупатели супермаркета на основе расчета индекса НОР?

10. Опишите, как можно проводить сегментацию товаров методами кластеризации.



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: