Постановка задачи

Системи підтримки прийняття рішень

МЕТОДИЧНІ ВКАЗІВКИ

і завдання до лабораторних робіт

для студентів денної форми навчання

спеціальності 4.03603 – Системний аналіз

Частина 2

Системи підтримки прийняття рішень. Методичні вказівки і завдання до лабораторних робіт для студентів денної форми навчання спеціальності 4.03603 – Системний аналіз. Частина 2. / Укл.: Біла Н.І.,– Запоріжжя: ЗНТУ, 2012. – с. 70.

Містить теоретичні відомості, індивідуальні завдання до лабораторних робіт та приклади із курсу «Системи підтримки прийняття рішень»

Укладачі: Біла Н.І. доцент,

Рецензенти: Пінчук В.П., доцент

Вишневська В.Г., доцент.

Відповідальний за випуск Корніч Г.В., зав.кафедрою, професор

Затверджено на засіданні кафедри

обчислювальної математики,

протокол № 1 від 15.10.2012

Зміст

Задача классификации и оценка качества ее решения 4

1.1 Постановка задачи 4

1.2 Методы, применяемые для решения задач классификации

1.3 Геометрическая интерпретация задачи классификации 6

1.4 Оценка качества модели классификации 7

1.5 Контрольные вопросы 14

Методи вирішення задач класифікації 15

2.1 Дискримінантний аналіз 15

2.2 Логістична регресія 31

2.3 Дерева рішень 34

2.4 Метод k- найближчих сусідів 48

2.5 Наївний байєсовський класифікатор 54

2.5 Метод опорних векторів 55

2.6 Завдання до лабораторної роботи 61

2.7 Контрольні запитання 65

Предобработка данных 66

3.1 Понятие предобработки данных

3.2 Масштабирование

3.3 Сокращение размерности

3.4 Задания к лабораторной работе

3.5 Контрольные вопросы

Рекомендована література 75

Задача классификации и оценка качества ее решения

Постановка задачи

Задача классификации – это задача разбиения множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).

Классификация является одной из важнейших задач Data Mining. Она применяется в маркетинге при оценке кредитоспособности заемщиков, определении лояльности клиентов, распознавании образов, медицинской диагностике и многих других приложениях. Если аналитику известны свойства объектов каждого класса, то когда новое наблюдение относится к определенному классу, данные свойства автоматически распространяются и на него.

Если число классов ограничено двумя, то имеет место бинарная классификация, к которой могут быть сведены многие более сложные задачи. Например, вместо определения таких степеней кредитного риска, как «Высокий», «Средний» или «Низкий», можно использовать всего две - «Выдать» или «Отказать».

Для проведения классификации с помощью математических методов необходимо иметь формальное описание объекта, которым можно оперировать, используя математический аппарат классификации. Таким описанием чаще всего выступает база данных. Каждая запись базы данных несет информацию о некотором свойстве объекта.

Набор исходных данных (выборку данных) разбивают на два множества: обучающая (training set) и тестовая (test set).

В обучающую выборку входят объекты, для которых известны значения как независимых, так и зависимых переменных. На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации. Для получения максимально точной функции к обучающей выборке предъявляются такие основные требования:

- количество объектов, которые входят в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на их основе функция классификации будет точнее;

- в выборку должны входить объекты, которые представляют все возможные классы;

- для каждого класса выборка должна иметь достаточное количество объектов.

Тестовое (test set) множество также содержит входные и выходные значения параметров. Здесь выходные значения используются для проверки работоспособности модели.

Процесс классификации состоит из двух этапов: конструирование модели и ее использование.

a) Конструирование модели: описание множества определенных классов.

1) Каждый пример набора данных относится к одному из определенных классов.

2) На этом этапе используется обучающее множество, на нем происходит конструирование модели.

3) Полученная модель представлена классификационными правилами, деревом решений или математической формулой.

б) Использование модели: классификация новых или неизвестных значений.

1) Оценка правильности (точности) модели. Известные значения из тестового набора сравниваются с результатами использования полученной модели. За уровень точности принимается процент правильно классифицированных примеров в тестовом множестве.

2) Если точность модели допустима, возможно использование модели для классификации новых примеров, класс которых неизвестен.

Основные проблемы, с которыми сталкиваются при решении задач классификации, - это неудовлетворительное качество входных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, разные типы атрибутов - числовые и категориальные, разная значимость атрибутов, а также так называемые проблемы overfitting и underfltting. Суть первой с них состоит в том, что классификационная функция при построению "слишком хорошо" адаптируется к данным, и ошибки, которые встречаются в них, и аномальные значения старается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет немного другим. Сроком underfltting обозначают ситуацию, когда наблюдается слишком большое количество ошибок при проверке классификатора на учебном множестве. Это означает, что особых закономерностей в данных не было выявлено и или их нет вообще, или необходимо выбрать другой метод их выявления.

1.2 Методы, применяемые для решения задач классификации:

· классификация с помощью деревьев решений;

байесовская (наивная) классификация;
классификация при помощи искусственных нейронных сетей;
классификация методом опорных векторов;
статистические методы, в частности, логистическая регрессия и дискриминантный анализ
классификация при помощи метода ближайшего соседа;
классификация CBR-методом;

· классификация при помощи алгоритмов покрытия.

Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями: