Создание структуры интеллектуального анализа данных для сценария прямой почтовой рассылки

В обозревателе решений (solution explorer) щелкните правой кнопкой мыши узел «Структуры интеллектуального анализа данных (Mining Structures)» и выберите команду «Создать структуру интеллектуального анализа данных (New Mining Structure)», чтобы запустить мастер интеллектуального анализа данных.

На странице «Мастер интеллектуального анализа данных (Welcome to the Data Mining Wizard)» нажмите кнопку «Далее (Next)».

Убедитесь, что на странице «Выбор метода определения (Select the Definition Method)» выбран параметр «На основе существующей реляционной базы данных или хранилища данных (From existing relational database or data warehouse)», затем нажмите кнопку «Далее (Next)».

На странице «Создание структуры интеллектуального анализа данных (Create the Data Mining Structure)» в поле «Какой метод интеллектуального анализа данных использовать? (Which data mining technique do you want to use?)» выберите «Алгоритм дерева принятия решений Майкрософт (Microsoft Decision Trees)».

Если появится предупреждение о том, что алгоритмов интеллектуального анализа данных не обнаружено, это может означать, что свойства проекта настроены неправильно. Это предупреждение выдается, только когда проект пытается получить список алгоритмов интеллектуального анализа данных с сервера служб Analysis Services и не находит сервера. По умолчанию служба BI Development Studio использует в качестве сервера localhost. Если используется другой экземпляр или именованный экземпляр, нужно изменить свойства проекта.

Нажмите кнопку «Далее (Next)».

На странице «Выбор представления источников данных (Select Data Source View)» в области «Доступные представления источника данных (available data source views)» выберите Adventure Works DW. Нажмите кнопку Обзор (Browse)», чтобы просмотреть таблицы в представлении источника данных, а затем нажмите кнопку «Закрыть (Close)», чтобы вернуться в окно мастера.

Нажмите кнопку «Далее (Next)».

На странице «Определение типов таблиц (Specify Table Types)» установите флажок в столбце «Вариант (Case)» рядом с таблицей vTargetMail, чтобы ее использовать в качестве таблицы вариантов, и нажмите кнопку «Далее (Next)». Таблица ProspectiveBuyer будет использоваться позже в целях проверки, поэтому на данном этапе ее не нужно учитывать.

На странице «Определение обучающих данных (Specify the Training Data)» для своей модели необходимо определить по крайней мере один прогнозируемый столбец, один ключевой столбец и один входной столбец. Установите флажок в столбце «Прогнозируемый (Input) и «Прогнозируемый (Suggest)» расположенном в строке «BikeBuyer».

Обратите внимание на предупреждение в нижней части окна. На следующую страницу можно будет перейти только после выбора хотя бы одного столбца «Входной и одного столбца «Прогнозируемый».

Нажмите кнопку Предложить (Suggest)», чтобы открыть диалоговое окно «Предложение связанных столбцов (Suggest Related Columns)».

Кнопка «Предложить (Suggest)» доступна, если был выбран по крайней мере один прогнозируемый атрибут. В диалоговом окне «Предложение связанных столбцов (Suggest Related Columns)» перечисляются столбцы, которые наиболее тесно связаны с прогнозируемым столбцом, а также перечисляются атрибуты в порядке их корреляции с прогнозируемым атрибутом. Столбцы со значительной корреляцией (степень достоверности превышает 95 %) автоматически выделены как включаемые в модель.

Просмотрите предложения и нажмите кнопку «Отмена (Cancel)», чтобы их не обрабатывать.

Если нажать кнопку «ОК», все предложения в списке будут помечены в мастере как входные столбцы. Если нужны не все предложения, значения придется изменять вручную.

Установите флажок в столбце «Ключевой (Key)», расположенном в строке «CustomerKey». Если для таблицы с входными данными из представления источника данных указан ключ, мастер интеллектуального анализа данных автоматически выберет этот столбец в качестве ключа для модели.

Установите флажки в столбце «Входной (Input)» в перечисленных ниже строках. Чтобы установить флажки в нескольких столбцах, можно выделить диапазон ячеек и удерживать нажатой клавишу CTRL при установке флажка.

· Age;

· CommuteDistance;

· EnglishEducation;

· EnglishOccupation;

· FirstName;

· Gender;

· GeographyKey;

· HouseOwnerFlag;

· LastName;

· MaritalStatus;

· NumberCarsOwned;

· NumberChildrenAtHome;

· Region;

· TotalChildren;

· YearlyIncome;

Нажмите кнопку «Далее (Next)».

На странице «Задание содержимого и типа данных столбцов (Specify Columns' Content and Data Type)» нажмите кнопку «Определить (Detect)», чтобы запустить алгоритм определения типов данных и содержимого по умолчанию для каждого столбца.

Просмотрите записи в столбцах «Тип содержимого (Content Type)» и «Тип данных (Data Type)». При необходимости измените их, чтобы они совпадали с параметрами, перечисленными в следующей таблице.

Обычно мастер распознает числа и присваивает им соответствующий числовой тип данных, но часто бывает нужно обрабатывать числа как строки. Например, поле «GeographyKey нужно обрабатывать как текст, поскольку над этим идентификатором математические операции не производятся.

Таблица 2

Столбец Тип содержимого Тип данных
Age Непрерывный Long
Bike Buyer Дискретный Long
Commute Distance Дискретный Text
CustomerKey Ключ Long
DateLastPurchase Непрерывный Date
Email Address Дискретный Text
English Education Дискретный Text
English Occupation Дискретный Text
FirstName Дискретный Text
Gender Дискретный Text
Geography Key Дискретный Text
House Owner Flag Дискретный Text
Last Name Дискретный Text
Marital Status Дискретный Text
Number Cars Owned Дискретный Long
Number Children At Home Дискретный Long
Region Дискретный Text
Total Children Дискретный Long
Yearly Income Непрерывный Double

 

Нажмите кнопку «Далее (Next)».

На странице «Создание проверочного набора (Create testing set)» оставьте для параметра «Процент проверочных данных (Percentage of testing data)» значение по умолчанию, равное 30.

Для параметра «Максимальное количество вариантов в наборе проверочных данных (Maximum number of cases in testing data set)» задайте значение 1000.

Нажмите кнопку «Далее (Next).

На странице «Завершение работы мастера (Completing the Wizard)» в поле «Имя структуры интеллектуального анализа данных (Mining structure name)» введите «Прямая почтовая рассылка (Targeted Mailing)».

В поле «Имя модели интеллектуального анализа данных (Mining model name)» введите «TM_Decision_Tree».

Установите флажок «Разрешить детализацию (Allow drill through)».

Нажмите кнопку «Готово (Finish)».

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: