Многомерный статистический анализ, задачи классификации объектов. Кластерный и дискременантный анализ

В стат исследованиях группировка первичных данных является основным кные) задача может быть решена методами кластерного анализа, решение отличаются от дв методов многомерной классификации отсутствием обучающих выборок, т.е.?апрорной? информации о распределении ген совокупности (вектора Х)

Различие между схемами задач по классификации определяется тем, что понимает по словом сходство и степень сходства. После того, как сформулирована цель работы нужно определить критерии качества, целевую функцию, значения γ позволяют сопоставить различные схемы классификаций. В эконометрическом исследовании целевая функция, как правило, должна минимизировать некоторые параметры определенные на множестве объектов (например, при классификации оборудования цель – группировка по мин совокупных затрат вр и средств не ремонтные работы). Если формировать цель не удается, критерием качества классификации является возможность сосредоточительной интерпретации найденных групп.

А) Кластерный анализ - это совокупность методов, позволяющих классифицировать м6ногомерные наблюдения, каждое из кот описывается набором признаков (параметров) Х₁, Х₂, … Х_к. Целью кластерного анализа явл образование групп схожих м/у собой объектов, кот принято называть кластерами.

Кластерный анализ – одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, γ которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи м/у единицами наблюдений совокупности. Метод кластерного анализа позволяет решить следующие задачи: проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов; проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры; построение новых классификаций для слабоизученных явлений. Когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Обычная форма представления исходных данных в задачах кластерного анализа прямоугольная таблица:

каждая строка γ представляет собой результат измерений k рассматриваемого признака, на одном из исследуемых объектах.

В некоторых случаях может представлять интерес как группировка объектов, так и группировка признаков.

Матрицы не единственный способ представления данных для задачи кластерного анализа. Иногда исходная информация данная квадратной матрицы: R=(rij), где элемент rij определяет степень близости объекта i к объекту j. Выбор меры близости явл одним из условных моментов исследования. Это может быть обыное эфклидовое расстояние (расстояние м\у двумя точками – сумма квадратов разности одномерных координат)

, где xik или xjk - величина k-ой компоненты у i- ого (j-ого) объекта.

Б) Дискриминантный анализ явл разделом многомерного статистического анализа, который влк в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обобщающих признаков. В Д.а. новые кластеры не образуются, а формулируются правило, по кот объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов)., на основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминациии.

Постановка задачи дискриминантного анализа. Пусть имеется множество М единиц N объектов наблюдения, каждая i-ая единица кот описывается совокупностью р значений дискириминантных переменных (признаков) xij (i=1, 2, …, N; j =1, 2, …, p). Причем все множество М объектов включает q обучающих подмножеств (q≥2) M_k размером n_k каждое и подмножество М₀ объектов подлежащих дискриминации (под дискриминацией понимается различие). Здесь – номер подмножества (класса), k=1, 2, …,q.

Требуется установить правило (линейную или не линейную дискриминантную функцию) f(X)) распределения m-объектов подмножества М₀ по подмножествам М_k

Наиболее часто используется линейная форма дискриминантной функции, которая представляется в виде скалярного произведения векторов А=(а₁, а₂, …, а_р) дискриминантных множителей и вектора Х_i=(x_i₁, x_i₂, …x_ip) дискриминантных переменных: F_i=A x X`_i или F_i=a₁x_i_,1+a₂x_i_,2+…+a_px_i_,_p(х_ij – значегие j-x признаков у i –гог объекта наблюдения. Дискриминантный анализ проводится в условиях следующих основных предположений: 1) множество М объектов М_к (класса), кот отличаются от других групп переменными х_ij, 2) в каждом подмножестве М_к находятся, по крайней мере, два объекта (n_k≥2) не менее чем на две единицы; 3) число N объектов наблюдения длжно превышать число р дискриминантных переменных (0<р<N-2) не менее чем на две единицы; 4)линейная независимость м/у признаками (j), т.е. ни один из признаков не должен быть линейной комибинацией др признаков, в противном случае он не несет новой информации; 5) нормальный закон распределения дискриминантных переменных х_ij (по признакам).

Если приведенные предположения не удовлетворяются, то ставится вопрос о целесообразности использования дискриминантного анализа для классификации новых наблюдений.