Многомерный статистический анализ, задачи классификации объектов. Кластерный и дискременантный анализ

В стат исследованиях группировка первичных данных является основным кные) задача может быть решена методами кластерного анализа, решение отличаются от дв методов многомерной классификации отсутствием обучающих выборок, т.е.?апрорной? информации о распределении ген совокупности (вектора Х)

Различие между схемами задач по классификации определяется тем, что понимает по словом сходство и степень сходства. После того, как сформулирована цель работы нужно определить критерии качества, целевую функцию, значения γ позволяют сопоставить различные схемы классификаций. В эконометрическом исследовании целевая функция, как правило, должна минимизировать некоторые параметры определенные на множестве объектов (например, при классификации оборудования цель – группировка по мин совокупных затрат вр и средств не ремонтные работы). Если формировать цель не удается, критерием качества классификации является возможность сосредоточительной интерпретации найденных групп.

А) Кластерный анализ - это совокупность методов, позволяющих классифицировать м6ногомерные наблюдения, каждое из кот описывается набором признаков (параметров) Х1, Х2, … Хк. Целью кластерного анализа явл образование групп схожих м/у собой объектов, кот принято называть кластерами.

Кластерный анализ – одно из направлений статистического исследования. Особо важное место он занимает в тех отраслях науки, γ которые связаны с изучением массовых явлений и процессов. Необходимость развития методов кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить внутренние связи м/у единицами наблюдений совокупности. Метод кластерного анализа позволяет решить следующие задачи: проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов; проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры; построение новых классификаций для слабоизученных явлений. Когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Обычная форма представления исходных данных в задачах кластерного анализа прямоугольная таблица:

каждая строка γ представляет собой результат измерений k рассматриваемого признака, на одном из исследуемых объектах.

В некоторых случаях может представлять интерес как группировка объектов, так и группировка признаков.

Матрицы не единственный способ представления данных для задачи кластерного анализа. Иногда исходная информация данная квадратной матрицы: R=(rij), где элемент rij определяет степень близости объекта i к объекту j. Выбор меры близости явл одним из условных моментов исследования. Это может быть обыное эфклидовое расстояние (расстояние м\у двумя точками – сумма квадратов разности одномерных координат)

, где xik или xjk - величина k-ой компоненты у i- ого (j-ого) объекта.

Б) Дискриминантный анализ  явл разделом многомерного статистического анализа, который влк в себя методы классификации многомерных наблюдений по принципу максимального сходства при наличии обобщающих признаков. В Д.а. новые кластеры не образуются, а формулируются правило, по кот объекты подмножества подлежащего классификации относятся к одному из уже существующих (обучающих) подмножеств (классов)., на основе сравнения величины дискриминантной функции классифицируемого объекта, рассчитанной по дискриминантным переменным, с некоторой константой дискриминациии.

Постановка задачи дискриминантного анализа. Пусть имеется множество М единиц N объектов наблюдения, каждая i-ая единица кот описывается совокупностью р значений дискириминантных переменных (признаков) xij (i=1, 2, …, N; j =1, 2, …, p). Причем все множество М объектов включает q обучающих подмножеств (q≥2) Mk размером nk каждое и подмножество М0 объектов подлежащих дискриминации (под дискриминацией понимается различие). Здесь – номер подмножества (класса), k=1, 2, …,q.

Требуется установить правило (линейную или не линейную дискриминантную функцию) f(X)) распределения m-объектов подмножества М0 по подмножествам Мk

Наиболее часто используется линейная форма дискриминантной функции, которая представляется в виде скалярного произведения векторов А=(а1, а2, …, ар) дискриминантных множителей и вектора Хi=(xi1, xi2, …xip) дискриминантных переменных: Fi=A x X`i  или Fi=a1xi,1+a2xi,2+…+apxi,p ij – значегие j-x признаков у i –гог объекта наблюдения. Дискриминантный анализ проводится в условиях следующих основных предположений: 1) множество М объектов Мк (класса), кот отличаются от других групп переменными хij, 2) в каждом подмножестве Мк находятся, по крайней мере, два объекта (nk≥2) не менее чем на две единицы; 3) число N объектов наблюдения длжно превышать число р дискриминантных переменных (0<р<N-2) не менее чем на две единицы; 4)линейная независимость м/у признаками (j), т.е. ни один из признаков не должен быть линейной комибинацией др признаков, в противном случае он не несет новой информации; 5) нормальный закон распределения дискриминантных переменных хij (по признакам).

Если приведенные предположения не удовлетворяются, то ставится вопрос о целесообразности использования дискриминантного анализа для классификации новых наблюдений.


 



Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: