Методы классификации

Под классификацией в общем случае понимается «разделение рассматриваемой совокупности объектов или явлений на однородные, в определенном смысле, группы либо отнесение каждого из заданного множества объектов или явлений к одному из заранее известных классов» [28]. Термин классификация используется как для обозначения самого процесса, так и его результата.

Задачи классификации относятся к задачам многомерного статистического анализа. В них объекты описываются в виде векторов в пространстве характеризующих эти объекты признаков. Задачи классификации делятся на три принципиально различных вида – дискриминантный анализ, кластерный анализ, задачи группировки [37].

Задача дискриминантного анализа состоит в нахождении правила, по которому наблюдаемый объект может быть отнесен к одному из заданных классов [37]. При этом предполагается, что классификация объектов уже известна. Классы могут быть описаны как непосредственно в математических терминах, так и с помощью обучающих выборок. В обучающих выборках для каждого объекта зарегистрированы значения признаков и класс, к которому этот объект относится. Поскольку классификация объектов известна, методы дискриминантного анализа часто называют классификацией с учителем.

Кластерный анализ применяется для выделения однородных категорий объектов, когда на основании статистических данных необходимо разделить элементы выборки на группы близких между собой объектов, которые обычно называют кластерами. «Близость» объектов должна определяться совокупностью значений измеренных признаков. Разбиение объектов на кластеры осуществляется одновременно с формированием этих кластеров. В связи с тем, что классы и их число, а также сущность классификации заранее не известны, кластерный анализ называют классификацией без учителя.

В задачах группировки классы заранее не заданы и не требуется, чтобы они были существенно различными. В качестве примера можно привести группировки по уровню дохода, числу детей в семье, номеру группы студента.

Целью и кластеризации, и группировки является обнаружение и выделение классов. Однако задачей кластер-анализа является поиск на основании существующих наблюдений достаточно изолированных скоплений объектов (кластеров), то есть выявление «естественного» разбиения на классы. При группировке объекты разбиваются на группы независимо от того, естественны ли границы разбиения или нет, поэтому соседние группы могут незначительно отличаться друг от друга.

Хотя для решения задач кластеризации и группировки могут применяться одинаковые методы, принципиальное различие между ними состоит в том, что на практике при анализе конкретных данных кластеризация не всегда может быть успешно проведена, если данные достаточно однородны, и в этом случае возможна только их группировка.

Для формализации общей задачи классификации рассмотрим формы задания исходных статистических данных и получаемого результата [28].

В качестве входных данных имеется:

1) n классифицируемых объектов, представленных матрицей «объект-свойство» (6.19)

x1(1) x1(2)... x1(p)

x2(1) x2(2)... x2(p) (6.19)

..........................

xn(1) xn(2)... xn(p)

Здесь xi(j) – значение j -го анализируемого признака (j = 1,..., p), характеризующего состояние i -го объекта. Тогда каждая i -я строка матрицы (6.19) отражает значения р признаков, характеризующих i -й объект.

2) обучающие выборки

(6.20)

Каждая выборка Xk (k =1, 2,..., q) определяет значения анализируемых признаков на nk объектах, о которых априори известно, что все они принадлежат k -му классу. Число q различных выборок (6.20) равно общему числу всех возможных классов. Следовательно, каждый класс представлен своей совокупностью выборочных данных.

Если при исследовании на «входе» задачи имеются как классифицируемые данные (1), так и обучающие выборки (2), то решается задача классификации с обучающими выборками («классификация с учителем). Если обучающие выборки отсутствуют, то речь идет о задаче «классификации без учителя».

Выходной результат может быть двух видов:

- Если число классов и их сущность заранее определены, то каждому из классифицируемых объектов должен быть присвоен номер класса, к которому он принадлежит.

- Если число классов и их сущность определяются в процессе классификации, то результатом процедуры классификации будет разбиение всей совокупности объектов на определенное число однородных групп (классов).

В первом случае классификация проводится при наличии обучающих выборок и является задачей дискриминантного анализа. Во втором случае имеет место решение задач кластеризации или группировки.

Вопросы для самопроверки

1. Что понимается под термином «статистическая методология»?

2. Какие этапы исследования включает статистическая методология?

3. Дайте краткую характеристику методу статистического наблюдения. Каким основным требованиям должны отвечать статистические наблюдения?

4. Какие шкалы применяются для регистрации статистических фактов?

5. С какой целью при обработке статистических данных применяется метод группировки?

6. Дайте краткую характеристику индексному методу. Приведите примеры применения индексного метода в экономике и менеджменте.

7. В чем состоит отличие индивидуальных и сводных индексов?

8. В чем, на ваш взгляд, состоит ограничение по применению

9. Дайте определение и краткую характеристику таким статистическим показателям как «средняя величина», «мода», «медиана».

10. Что такое статистическая связь?

11. Каковы основные характеристики парной статистической связи?

12. Что является целью регрессионного анализа?

13. Как интерпретируется коэффициент детерминации?

14. В каких случаях для исследований применяется непараметрический коэффициент корреляции?

15. Что называется функцией регрессии?

16. Каковы свойства коэффициентов множественной регрессии?

17. Каково назначение дисперсионного анализа?

18. Как формулируются гипотезы в дисперсионном анализе?

19. Какие ограничения имеет дисперсионный анализ?

20. Поясните значение термина «классификация».

21. В каком случае для решения задачи классификации используются методы дискриминантного анализа?

22. Какие методы классификации используются в кластерном анализе?


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: