Линейные модели временных рядов

Модель авторегрессии. В модели авторегрессии АР(р) порядка "р" текущий уровень ряда представляется в виде взвешенной суммы "р" предыдущих наблюдений:

X(t) = a1X(t – 1) + a2X(t – 2) + … +apX(t – p).

Параметры модели могут быть оценены по МНК (простая авторегрессия) или иным методом (как в методе Бокса-Дженкинса). Порядок авторегрессии (величина "р ") определяется путем перебора, а его начальная оценка формируется на основе анализа автокорреляционной функции. Лучшей считается величина, при которой достигнута наименьшая дисперсия ошибок.

В сезонной модели авторегрессии АР(р) порядок выбирается равной периоду сезонности (колебаний). Во многих случаях сезонная АР (р) - модель с оценками по МНК оказывается "перегруженной" незначимыми коэффициентами, и вследствие этого она обычно уступает аналогичной модели Бокса-Дженкинса Для повышения устойчивости модели в большинстве случаев целесообразно строить ее для стационарного процесса, т.е. ряда с исключенной тенденцией.

Метод Бокса-Дженкинса. Если временной ряд стационарный (есть наличие статистического равновесия относительно постоянной средней), его можно представить широким классом линейных моделей, называемых модулями авторегрессии-скользящего среднего (АРОС). Это значит, что:

.

где - значения предварительно преобразованной переменной; at -процесс "белого шума"; - параметры авторегрессии; - параметры скользящего среднего.

Если использовать оператор сдвига назад В, т.е. Bz = zt-1, то АРCС-модель можно записать в операторной форме:

.

Параметры этой модели должны удовлетворять следующим условиям: а) для стационарности корни уравнения ф(В) = 0 должны лежать вне единичного круга для оператора авторегрессии ф(В) (ряда находятся в статистическом равновесии относительно фиксированного среднего); б) для обеспечения обратимости корни уравнения q (В) = 0 должны должны лежать вне единичного круга для оператора скользящего среднего q (В).

Чтобы добиться экономии параметров, в модель включают одновременно операторы авторегрессии и скользящего среднего.

В целом авторегрессионные модели и модели скользящего среднего модели известны относительно давно, но их использование в моделировании временных рядов затруднялось из-за отсутствия соответствующих методов идентификации, оценивания и контроля этих моделей, наличия неадекватных методов для описания нестационарных рядов.

При формализации нестационарных рядов используют такие классы моделей, которые пригодны для представления широкого диапазона практических ситуации, т.е. используют конечные разности порядка d:

.

Конечная разность первого порядка имеет вид .

Стационарный ряд можно затем представить с помощью АРСС-модели:

wt – c = q(B)at / j(B).

Определенная выше модель называется авторегрессионной интегрированной моделью скользящего среднего или АРИСC(p,d,q). Взаимосвязанная статистическая методика метода Бокса-Дженкинса включает в себя: а) идентификацию временного ряда (т.е. определение размерностей операторов конечной разности, авторегрессии и скользящего среднего); б) оценивание параметров модели; в) проверку адекватности модели.

Сезонная модель Бокса-Дженкинса содержит сезонные операторы конечной разности, авторегрессии и скользящего среднего. В операторном виде она приобретает вид:

,

где S - период сезонности, - оператор сезонной конечной разности,

,

где D - порядок сезонной конечной разности, Ф - оператор сезонной авторегрессии порядка Р, q - сезонного скользящего среднего порядка Q, d, ф, Q - определены выше.

Модель называется сезонной моделью авторегрессии-скользящего среднего (р, d, q) x (P, D, Q). Основные этапы разработки сезонной модели аналогичны этапам для несезонной модели.

Метод ОЛИМП. Этот метод является распространением моделей авторегрессии скользящего среднего для моделирования нестационарных временных рядов.

Формально модель ОЛИМП соответствуют модели АРСС(р, q), за исключением того, что на вход модели поступает нестационарный, вообще говоря, временной ряд. Так же, как для и несезонных моделей, сезонная модель ОЛИМП отличается от авторегрессионных моделей тем, ^то на ее вход могут поступать нестационарные временные ряды, которые не приводятся к стационарным путем взятия конечных разностей. В операторном виде модель ОЛИМП (р,q)х(Р,Q) имеет вид:

.

С точки зрения общих соображений размерности операторов авторегрессии для модели ОЛИМП должны быть несколько больше, чем для модели Бокса-Дженкинса при моделировании одинаковых временных рядов.

Если идентифицирована модель Бокса-Дженкинса с параметрами р, d, q, то соответствующая модель ОЛИМП должна иметь параметры р'=р+d.

Если процесс удовлетворяет стохастическому разностному уравнению порядка p (авторегрессионный процесс)

,

где Фi - коэффициенты оператора авторегрессии, ut - последовательность независимых одинаково распределенных случайных величин с дисперсией , t = 1, 2, …, T.

Если известны начальные значения у-р, у -р+1,...,у-1, то прогноз имеет вид:

,

где Е - оператор математического ожидания, будет иметь наименьшую дисперсию вне зависимости от значения корней характеристического уравнения.

Сравнительные характеристики двух подходов к моделированию авторегрессионных процессов приведены в табл. 14.4.

Таблица 14.4. Методы моделирования авторегрессионных процессов

Характеристики Известная схема Новая схема
Тип моделируемых процессов Стационарные Стационарные и нестационарные
Исходные предпосылки Остатки независимы и одинаково распределены Остатки независимы, одинаково распределены, заданы начальные условия
Базовое представление наблюдений
Ограничения Корни характеристического уравнения вне единичного круга Нет ограничений
Вид прогноза

В целом статистические оценки модели являются состоятельными вне зависимости от значения корней характеристического уравнения. В практическом плане свойства состоятельности оценок оказываются вполне достаточны для их использования.

Оценка качества моделей. Проведем оценку качества модели по критериями точности и адекватности.

Схема формирования интегрированных критериев точности и адекватности, а также общего критерия качества прогнозирования состоит в следующем. С помощью механизма параметров пакета формируется состав отдельных критериев, на основе которых рассчитывается интегрированный показатель (так, точность можно характеризовать только коэффициентом детерминации, или дисперсией и средней ошибкой аппроксимации, или всеми тремя перечисленными выше критериями точности).

Предварительно для каждого отдельного критерия разрабатывается процедура его нормировки. Нормированный критерий получается из исходной статистики критерия таким образом, чтобы выполнялись условия: нормированный критерий равен 100, если модель абсолютно точная (адекватная); нормированный критерий равен 0, если модель абсолютно неточная (неадекватная).

Обобщенный критерий качества модели формируется как взвешенная сумма обобщенного критерия точности (его вес 0.75) и обобщенного критерия адекватности (его вес 0.25), т.е. точностным характеристикам придается большой вес. В качестве представителя характеристик точности используется нормированное значение средней относительной ошибки аппроксимации, а в качестве представителя критериев адекватности -нормированное значение критерия Дарбина-Уотсона и характеристики нормального закона распределения остаточной компоненты Числовое значение обобщенного критерия качества лежит в диапазоне от 0 до 100 (минимум соответствует абсолютно плохой модели, а максимум - идеально отображающей развитие показателя). Опыт применения этого показателя показывает, что достаточно надежными являются модели, имеющие оценку качества не менее 75.

Так как формально-статистический выбор лучшей модели во многих случаях не дает полной уверенности в его правильности, то, кроме указанной программой модели, целесообразно просматривать результаты прогнозирования других моделей, имеющих близкое значение критерия качества Адекватными моделями считаются такие, у которых остаточная компонента имеет свойства независимости, случайности и нормальности распределения.

Критерий Дарбина-Уотсона является наиболее распространенным критерием для проверки корреляции внутри ряда. Если величина Д

,

где ei - расхождение между фактическими и расчетными уровнями, имеет значение, близкое к 2, то можно считать модель регрессии достаточно адекватной.

Для построения интервального прогноза необходимо выполнение свойства нормальности распределения остаточной компоненты, оцениваемого на основе коэффициентов асимметрии и эксцесса.

При оценке адекватности уравнения регрессии учитывается также корреляционное отношение, которое характеризует долю дисперсии, зависимой переменной, объясняемой уравнением регрессии. Корреляционное отношение рассчитывается по формуле

,

где - расчетные значения зависимой переменной, - среднее значение.

Точность модели характеризует близость расчетных наблюдений фактическим на периоде аппроксимации. Считается, что модели с меньшим расхождением между фактическими и расчетными значениями отражают исследуемый процесс. Для характеристики степени близости используются величины: среднее квадратическое отклонение (или дисперсии), учитывающее сложность модели; коэффициент детерминации (чем ближе к 1, тем более точнее модель); средняя относительная ошибка аппроксимации (чем ближе к 0, тем точнее модель); среднее значение (должно быть близко к нулю); максимальное отклонение.

Статистически точность прогнозов можно оценить, только используя ретропрогноз. Его суть состоит в построении модели по усеченному объему данных (N-k) точек с последующим сравнением прогнозных оценок с известными фактическими, но умышленно «забытыми» k уровнями ряда). По результатам сравнения вычисляются следующие показатели точности: среднее значение; среднеквадратическое отклонение; средний модуль ошибок прогнозирования (%); максимальное и минимальное отклонение. Чем меньше значение этих величин, тем выше качество ретропрогноза. Данный подход дает хорошие результаты, если на периоде ретропрогноза не содержится принципиально новых закономерностей.

Построение обобщенного прогноза. На практике часто встречается ситуация, когда несколькомоделей могут быть адекватными, с малыми различиями между их характеристиками. В этом случае целесообразно строить обобщенный прогноз, формируемый как линейная комбинация частных прогнозов:

,

где М - число объединяемых прогнозов; . - весовые коэффициенты частных прогнозов; - частные прогнозы.

Весовые коэффициенты определяются из условия минимума дисперсии ошибок обобщающего прогноза (максимума его точности), которая находится как сумма всех элементов ковариационной матрицы ошибок частных прогнозов с соответствующими весами:

;

,

где kij - корреляционный момент, характеризующий совместно распределение ошибок i и j - частных прогнозов: и - средние квадратичные ошибки; rij - коэффициент корреляции между рядами ошибок частных прогнозов yi И yj.

Сумма весовых коэффициентов должна давать единицу (это необходимое условие того, чтобы дисперсия обобщающего прогноза не превышала дисперсии частных прогнозов. Ковариационная матрица ошибок частных прогнозов в этом случае будет иметь вид:

,

а дисперсия обобщающего прогноза соответствует сумме всех элементов матрицы:

.

В точке минимума функции все (М-1) первые частные производные должны обращаться в нуль.

Приравняв к нулю все (М-1) первые частные производные по переменным р12,…рМ-1, получаем систему (М-1) линейных уравнений с (М-1) неизвестными:

Коэффициенты при переменных составят матрицу В, элементы которой определяются как

Вектор свободных членов будет состоять из элементов сj:

.

Такую систему уравнений можно решить с помощью линейной алгебры.

Алгоритм объединения частных прогнозов состоит в следующем:

10. Вычисляются дисперсии ошибок частных прогнозов и строится ковариационная матрица:

где еj - ошибки частных прогнозов; t -порядковый номер наблюдения, t = 1,…,n.

20. Строятся матрица В и вектор С по формулам

;

.

30. Из решения системы линейных уравнений определяется (М-1) значение рj, при этом весовой коэффициент рМ определяется как

.

40. Производится проверка условия:

pj>0, j=1,…,M, при этом:

а) eсли условие не выполняется, прогнозы уj исключаются и производится перерасчет весовых коэффициентов (с возвратом к пункту 20);

б) eсли все весовые коэффициенты положительны, то вычисляется значение обобщающего прогноза yo и коэффициент условной эффективности :

; ,

где - дисперсия ошибок комплексного прогноза; - дисперсия ошибок наилучшего частного прогноза.

50. Так как в большинстве случаев точность прогнозов изменяется во времени, формулы оценки весовых коэффициентов модифицируются так, что более поздним ошибкам присваивается большее значение; этим производится корректировка обобщающего прогноза путем изменения весовых коэффициентов в сторону наилучшего частного прогноза :

,

где pjT - весовой коэффициент частного прогноза в момент времени Т; yjT - частный прогноз в момент времени Т; - обобщенный прогноз в момент времени Т.

Для повышения стабильности динамики изменения весов в алгоритме их корректировки можно использовать схему экспоненциального сглаживания.

В целом для проведения обобщения необходимо иметь не менее двух адекватных моделей, а для повышения устойчивости результатов количество обобщаемых частных прогнозов не должно превышать пяти.

Многомерный анализ

Корреляционный анализ. Корреляционный анализ обеспечивает: а) измерение степени связи двух или более явлений; б) отбор факторов, оказывающих наиболее существенное влияние на результативный признак на основании измерения степени связности между явлениями; в) обнаружение ранее неизвестных причинных связей (кoрреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает численное значение этих связей и достоверность суждений об их наличии).

При проведении корреляционного анализа вся совокупность рассматривается как множество переменных (факторов), каждая из которых содержит n наблюдений; хik - наблюдение i переменной k; - значение k -ой переменной; i=1,...,n.. Основными средствами анализа являются: парные, частные коэффициенты корреляции, множественные коэффициенты корреляции.

Парные коэффициенты корреляции опосредованно учитывают влияние других факторов. Для исключения этого влияния определяют частные коэффициенты корреляции.

Парный коэффициент корреляции между k -м и L -м факторами вычисляется как

.

Он служит показателем тесноты линейной статистической связи, но только в случае совместной нормальной распределенности случайных величин, выборками которых являются k -й и L -й факторы.

При этих же предпосылках для проверки гипотезы о равенстве нулю парного коэффициента корреляции используется t -статистика, распределенная по закону Стьюдента с п-2 степенями свободы. Сначала рассчитывается критическое значение t -статистики, а на его основе критическое значение коэффициента корреляции рассчитывается как

.

Если расчетное значение больше критического, то гипотеза о равенстве нулю данного коэффициента корреляции отвергается на соответствующем вероятностном уровне. Аналогичные выводы имеют место при проверке значимости частных коэффициентов корреляции.

Частный коэффициент корреляции первого порядка между k -м и L -м факторами характеризует тесноту их линейной связи при фиксированном значении j -го фактора. Он определяется как

.

Он распределен аналогично парному коэффициенту при тех же предпосылках, и для проверки его значимости используется t -статистика, но в которой число степеней свободы равно n-З. Частный коэффициент корреляции рассчитывается в общем виде и при условии, что все остальные переменные – фиксированные, следующим образом:

(частн.) ,

где Dij - определитель матрицы, образованной из мaтрицы парных коэффициентов корреляции вычеркиванием i -й строки и j –го столбца.

Для каждого частного коэффициента корреляции аналогично парному рассчитываются t -значение для проверки значимости коэффициента, а также доверительные интервалы. При этом дисперсия преобразованной величины равняется 1/(n-L-3), где L - число фиксированных переменных (в программе L=m-2).

Для определения тесноты связи между текущей k -й переменной и оставшимися (объясняющими) переменными используется выборочный множественный коэффициент корреляции:

,

где D – определитель матрицы парных коэффициентов корреляции.

Для проверки статистической значимости коэффициента множественной

корреляции используется величина

,

имеющая F - распределение с L и (n-L-2) степенями свободы соответственно.

Если рассчитанное F -значение больше значения F -распределения на соответствующем вероятностном уровне (0.9 и выше), то гипотеза о линейной связи между k -й переменной и остальными переменными не отвергается. В программе для каждого коэффициента множественной корреляции выводится F -значение и процентная точка F -распределения, которая ему соответствует.

Регрессионный анализ. При регрессионном анализе решаются следующиезадачи: а) установление форм зависимости (положительная, отрицательная, линейная, нелинейная); б) определение функции регрессии. Важно не только указать общую тенденцию изменения зависимой переменной, но и выяснить, каково было бы действие на зависимую переменную главных факторов - причин, если прочие (второстепенные, побочные) факторы не изменялись (находились на одном и том же среднем уровне), и если были бы исключены случайные элементы; в) оценка неизвестных значений зависимой переменной.

Уравнение множественной линейной регрессии имеет вид:

.

В каждом виде регрессионного анализа необходимо выбрать зависимую переменную Y (для которой строится уравнение регрессии) и одну или несколько независимых переменных хj (i=1,2,... m). Это уравнение позволяет установить статистическую взаимосвязь изучаемых показателей и, в случае ее устойчивости, давать аналитические и прогнозные оценки.

На базовом периоде времени строится уравнение зависимой переменной. Далее производится расчет прогнозных значений зависимой переменной по рассчитанному уравнению регрессии. При этом для всех регрессоров заранее должны быть получены их прогнозные оценки и дописаны в конец исходных данных. Для зависимой переменной в исходных данных на глубину периода прогнозирования необходимо дописать нулевые значения.

Различают различные виды множественной регрессии – линейную, пошаговую, гребневую и др.

В линейном регрессионном анализе рассматривается зависимость случайной величины Y от ряда исходных факторов (регрессоров) Х12,,...,Хm, которая в силу влияния неучтенных факторов будет стохастической. В матричной записи она имеет вид:

,

где Y - вектор значений переменной, Х – матрица независимых переменных, β - подлежащий определению вектор параметров; ε- вектор случайных отклонений.

В регрессионном анализе действуют следующие предположения:

M[ei × ej] = 0, j ¹ 1, M[ei × ej] = s2e, j = 1, …, m,

Матрица Х детерминирована и столбцы ее линейно независимы.

МНК-оценки находятся из условия минимума функционала:

(Y - Xb)T (Y - Xb).

Оценки параметров имеют вид:

и являются несмещенными и эффективными.

Если - эмпирическая аппроксимирующая регрессия, то элементы вектора - называются остатками. Анализ остатков позволяет судить о качестве построенного уравнения регрессии.

Пошаговая регрессия является одним из методов определения наилучшего подмножества регрессоров для объяснения Y. Реализуется пошаговая процедура с последовательным включением переменных в уравнение регрессии.

Пусть в уравнение регрессии включено L переменных, т.е. сделано L шагов алгоритма, и осуществляется L+1 шаг. Основной вопрос, который решается на каждой итерации - это вопрос о том, какую переменную включать в уравнение регрессии.

Для каждой переменной регрессии, за исключением тех переменных, которые уже включены в модель, рассчитывается величина Cj, равная относительному уменьшению суммы квадратов зависимой переменной. При включении переменной в уравнение регрессии она интерпретируется как доля оставшейся дисперсии независимой переменной, которую объясняет j -я переменная. Пусть k - номер переменной, имеющей максимальное значение j -го элемента. Тогда, если Сj < р, где р - определенная константа, то анализ переменных прекращается, и больше переменных не вводится в модель. В противном случае k- я переменная вводится в уравнение регрессии. Константа р является параметром метода и может быть изменена пользователем.

Гребневая регрессия основана на гребневых оценках, направленных на оценивание множественных линейных регрессий в условиях мультиколлинеарности, т.е. сильной корреляции независимых переменных.

Как известно, следствием мультиколлинеарности является обусловленность матрицы X’X и бесконечное возрастание по этой причине дисперсии оценок линейной регрессии.

Матрица X’X регуляризуется путем добавления малого положительного числа к диагональным элементам. В программе реализован алгоритм построения однопараметрической гребневой оценки вида

a(k) = (X’X + kD)X’Y, k³0,

где k – параметр регуляризации; D – матрица регуляризации, в качестве которой может быть выбрана единичная матрица или диагональная матрица, составленная из диагональных элементов X’X.

Для автоматического расчета параметра k выбрана формула

k = ms/a’a,

где а – вектор оценок регрессии по МНК, s - оценка остаточной дисперсии по МНК.

Парная регрессия устанавливает связь между откликом Y и функцией, зависящей от входной переменной X, т.е. регрессия имеет вид: Y = f(X).

Функции f, включенные в парную регрессию в настоящем пакете, удовлетворяют двум основным условиям: они распространены в практике экономических исследований, каждое из уравнений регрессии путем преобразований типа логарифмирования и возведения в степень сводится к линейной модели.

Для реализации функции парной регрессии необходимо выбрать переменную Y (зависимая переменная), переменную Х (объясняющая переменная), а также сформировать список функций парной регрессии (табл.).

Для каждой функции параметры вычисляются по методу наименьших квадратов, а также рассчитывается критерий вида

,

где k – число оцениваемых параметров функции.

Та функция, которой соответствует минимальное значение критерия, считается оптимальной, и для нее рассчитываются все параметры.

Заметим, что с помощью коэффициентов регрессии нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различий единиц измерения и степени колебаний. Для устранения этого применяют: коэффициент эластичности; дельта-коэффициент; бета-коэффициент.

Как с помощью частных коэффициентов эластичности, так и с пoмощью бета-коэффициентов можно проранжировать факторы по степени их влияния на зависимую переменную, т.е. сопоставить их между собой по величине этого влияния. Вместе с тем нельзя непосредственно оценить долю влияния фактора в суммарном влиянии всех факторов. Для этой цели используются дельта-коэффициенты.

Для экономической интерпретации нелинейных, связей обычно пользуются коэффициентом элacтичнocти (табл.14.5.), который характеризует относительное изменение зависимой переменной при изменении объясняющей переменной на 1%.

Таблица 14.5. Основные функции парной регрессии

Модель Преобразование Матрицы
X Y
Y=a+bX Нет -
Y=a+bХ+cХХ Нет -
Y=a+b/Х Нет -
Y=1/(a+bХ) Возведение в степень (-1)
Y=1/(a+b*exp(-X)) Возведение в степень (-1)
Y=a*exp(bX) Логарифмирова-ние
Y=a+b*ln(Х) Нет -
Y= Логарифмирова-ние
Y= Логарифмирова-ние
Модель Преобразование Матрицы
X Y
Y=a+b/ln(x) Нет -
Y= Логарифмирова-ние
Y=a+bХ+c(Х)1/2 Нет -
Y=Х/(a+bХ) Нет
Y=a*exp(b/X) Логарифмирова-ние
Y= Нет -
Y=a+bX+cXX+…+dXk Нет -

Если уравнение регрессии имеет вид у=f(x), то коэффициент эластичности рассчитывается как

,

где - среднее значение переменной х; - среднее значение переменной.

Производная берется в точке .

Таблица 14.6. Расчет коэффициентов эластичности

№п/п Функция Формула коэффициента эластичности
  Y=a+bx Э
  Y=a+bx+cx2 Э
  Y=a+b/x Э
  Y=1/(a+bx) Э
  Y=1/(a+b)e-x Э
  Y= Э
  Y=a+bln(x) Э
  Y= Э
  Y= Э
  Y=a+b/ln(x) Э
  Y= Э=b
  Y=a+bx+c(x)1/2 Э
  Y=x/(a+bx) Э=a/(a+bx)
  Y= Э=b/x
  Y= Э
  Y= Э

Дельта-коэффициент. Доля вклада каждого фактора в суммарное влияние составляет:

; ,

где R2 - коэффициент множественной детерминации; ri - коэффициент парной корреляции между i –м фактором и зависимой переменной; βi - β - коэффициент.

При корректно проводимом анализе величины дельта-коэффициентов
положительны, т.е. все коэффициенты регрессии имеют тот же знак, что и
соответствующие парные коэффициенты корреляции. Тем не менее, в случаях сильной коррелированности объясняющих переменных некоторые дельта-коэффициенты могут быть отрицательными вследствие того, что соответствующий коэффициент регрессии имеет знак, противоположный парному коэффициенту корреляции.

Бета-коэффициент. Для устранения различий в измерении и степени колеблемости факторов используется β коэффициент или коэффициент регрессии в стандартизованном виде:

,

где bj - коэффициент регрессии при j -й переменной, Sj - оценка среднеквадратического отклонения j -й переменной, Sy - оценка среднеквадратического отклонения независимой переменной.

Он показывает, на какую часть величины среднего квадратического отклонения меняется среднее значение зависимой переменной с изменением соответствующей независимой переменной на одно среднеквадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных.

Факторный и компонентный анализ.Компонентный анализ является методом определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание малого объема, несущее почти всю информацию, содержащуюся в исходных данных. Главные компоненты Y1,Y2,...,Ym получаются из исходных переменных X1,X2,...,Xm путем целенаправленного вращения, т.е. как линейные комбинации исходных переменных. Вращение производится таким образом, чтобы главные компоненты были ортогональны и имели максимальную дисперсию среди возможных линейных комбинаций исходных переменных X. При этом переменные Y1,Y2,...,Ym некоррелированы между собой и упорядочены по убыванию дисперсии (первая компонента имеет наибольшую дисперсию). Кроме того, общая дисперсия после преобразования остается без изменений. Итак, i -я главная компонента Yi:

.

Пусть R - корреляционная матрица переменных X. Тогда - первый собственный вектор матрицы R. Кроме того, дисперсия первой главной компоненты равна первому собственному числу матрицы R, дисперсия второй главной компоненты равна второму собственному числу матрицы R и т.д.

Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом. Модель факторного анализа имеет вид:

,

где - постоянные величины, называемые факторными нагрузками, Fj - общие факторы, используемые для представления всех р исходных переменных, ei - специфические факторы, уникальные для каждой переменной, р m.

Задачами факторного анализа являются: определение числа общих факторов, определение оценок , определение общих и специфических факторов. Для получения оценок общностей и факторных нагрузок используется эмпирический итеративный алгоритм, сходящийся к истинным оценкам параметров, суть которого сводится к следующему:

10. Первоначальные оценки факторных нагрузок определяются с помощью метода главных факторов. На основании корреляционной матрицы R формально определяются оценки главных компонент:

20. Оценки общих факторов ищутся в виде:

где - соответствующее собственное значение матрицы R.

30. Оценками факторных нагрузок служат величины

где aij - оценки ij; Lij – оценки ij.

40. Оценки общностей получаются как

.

50. На следующей итерации модифицируется матрица R – вместо элементов главной диагонали подставляются оценки общностей, полученные на предыдущей итерации; на основании модифицированной матрицы R с помощью вычислительной схемы компонентного анализа повторяется расчет главных компонент (которые не являются таковыми с точки зрения компонентного анализа), ищутся оценки главных факторов, факторных нагрузок, общностей, специфичностей. Факторный анализ можно считать законченным, когда на двух соседних итерациях оценки общностей меняются слабо.

Преобразования матрицы R могут нарушать положительную определенность матрицы R и, как следствие, некоторые собственные значения R могут быть отрицательными. Для лучшей интерпретации полученных общих факторов к ним применяется процедура варимаксного вращения.

Если факторный анализ ведется в терминах главных компонент, то значения факторов могут быть вычислены непосредственно. Главные компоненты (без вращения) могут быть представлены в виде:

где ajp - коэффициенты при общих факторах; - собственные значения; хj - исходные данные (вектор-столбцы); Fp - главные компоненты (вектор-столбцы).

В случае вращения главных компонент соотношения, связывающие исходные переменные и значения факторов, несколько усложняются. Ниже в матричном виде приведено соотношение, оптимальное по скорости вычисления, а также независимое от метода вращения факторов:

,

где - повернутая матрица А; А - матрица коэффициентов при общих факторах; - диагональная матрица m собственных членов; х - матрица исходных данных; F - матрица m повернутых факторов.

При определении числа общих факторов руководствуются следующими критериями: число существенных факторов можно оценить из содержательных соображений, в качестве р берется число собственных значений, больших либо равных единице (по умолчанию), выбирается число факторов, объясняющих определенную часть общей дисперсии или суммарной мощности.

Кластерный анализ. Классификация объектов по осмысленным группам, называемая кластеризацией, является важной процедурой в различных областях научных исследований. Кластерный анализ (КА) - это многомерная статистическая процедура, упорядочивающая исходные данные (объекты) в сравнительно однородные группы. Общим для всех исследований, использующих КА, являются пять основных процедур: 1) отбор выборки для кластеризации; 2) определение множества признаков, по которым будут оцениваться объекты в выборке; 3) вычисление значений той или иной меры сходства между объектами; 4) применение метода КА для создания групп исходных данных; 5) проверка достоверности результатов кластерного решения.

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных. При этом 1, 2 и 5 шаги целиком зависят от решаемой задачи и должны определяться пользователем. Шаги 3 и 4 выполняются программой кластерного анализа.

В целом многие методы КА - довольно простые эвристические процедуры, которые не имеют, как правило, строгого статистического обоснования, но позволяют свести к минимуму вероятность допущения ошибки при трактовке результатов КА.

Разные кластерные методы могут порождать различные решения для одних и тех же данных. Это обычное явление в большинстве прикладных исследований. Окончательным критерием считают удовлетворенность исследователя результатами КА.

Разработанные кластерные методы образуют семь основных семейств: иерархические агломеративные методы; иерархические дивизимные методы; итеративные методы группировки; методы поиска модальных значений плотности; факторные методы; методы сгущений; методы, использующие теорию графов. По данным ряда исследований, около 2/3 приложений КА используют иерархические агломеративные методы.

Процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний. На последующих шагах к этой группе присоединяется объект, наиболее близкий к одному из уже находящихся в группе. По окончанию процесса все объекты объединены в один кластер.

Отметим несколько важных особенностей иерархических агломеративных методов. Во-первых, все эти методы просматривают матрицу расстояний размерностью (где N - число объектов) и последовательно объединяют наиболее схожие объекты. Именно поэтому они называются агломеративными (объединяющими). Во-вторых, последовательность объединения кластеров можно представить визуально в виде древовидной диаграммы, часто называемой дендрограммой. В-третьих, для понимания этого класса методов не нужны обширные знания матричной алгебры или математической статистики. Вместо этого дается правило объединения объектов в кластеры. Например, в системе СтатЭксперт разработана программа кластерного анализа, основанная на иерархической агломеративной процедуре и позволяющая пользователю управлять процессом кластеризации. Кратко поясним суть предлагаемого метода.

Вначале ищутся два наиболее близких объекта (предположим, А и В). Предположим, что расстояние между объектами А и В равно R. В один кластер объединяются объекты, расстояние между которыми меньше, чем (10-С)R, где С - четкость классификации, параметр управления процессом, принимающий значения от 1 до 10, который может меняться пользователем. При C=10 на каждом шаге объединяются только два самых близких элемента, т.е. имеет место иерархическая агломеративная процедура в чистом виде. Однако, как показывает практика использования КА, пользователю важнее выделить в пространстве группы объектов с разной плотностью. В этом случае величину С необходимо уменьшать. Минимальное расстояние R пересчитывается на каждом шаге кластерного анализа.

Объединение. На каждом шаге кластерного анализа происходит объединение объектов, т.е. из нескольких объектов образуется один кластер. Процедура кластеризации заканчивается тогда, когда все первичные объекты исчерпаны Допустим, на каждом шаге объединяются n объектов. Из этих объектов образуется один кластер как центр тяжести этих объектов (среднее арифметическое по каждой координате).

Размерность задачи уменьшается на величину n-1(n объектов удаляются, один добавляется). Далее производится пересчет матрицы расстояний.

В программе реализован кластерный анализ наблюдений, т.е. в результате вычислительной процедуры каждое наблюдение относится к той или иной группе. Кластеризация проводится на основе одной из двух метрик:

евклидово расстояние: ;

корреляционное расстояние: ,

где х={x1, x2, …, xk} и у={y1, y2, …, yk} - две точки; rxy - парный коэффициент корреляции между x и y.

В программе реализованы три метода классификации: метод "ближайшего соседа", метод "ОЛИМП", метод "К-средних".

Метод ближайшего соседа является представителем: иерархических агломеративных методов, которые используют приблизительно 2/3 приложений КА. В этом методе процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний. На последующих шагах к этой группе присоединяется объект, наиболее близкий к одному из уже находящихся в группе. По окончании кластеризации все объекты объединены в один кластер.

Метод "ОЛИМП" основан на иерархической агломеративной процедуре. На каждом шаге кластерного анализа происходит объединение объектов, т.е. из нескольких объектов образуется один кластер. Процедура кластеризации заканчивается тогда, когда все первичные объекты исчерпаны Допустим, на каждом шаге объединяются п объектов. Из этих объектов образуется один кластер как центр тяжести этих объектов (среднее арифметическое по каждой координате). Размерность задачи уменьшается на величину (n-1), так как n объектов удаляются, а один добавляется. Далее производится пересчет матрицы расстояний.

Метод К-средних относится к итеративным методам группировки. Его достоинством является возможность управления количеством групп (К-групп), на которые должны бытъ разнесены наблюдения. Алгоритм метода состоит в следующем:

1°. Начать с исходного разбиения данных не некоторое заданное число кластеров; вычислить центры тяжести этих кластеров (в программе исходное разбиение выполняется методом ближайшего соседа)..

2°. Поместить каждую точку данных в кластер с ближайшим центром тяжести.

3°. Вычислить новые центры тяжести кластеров; кластеры не заменяются на новые до тех пор, пока не будут просмотрены полностью все данные. Шаги 2 и 3 повторяются до тех пор, пока не перестанут меняться кластеры.

Содержательно этот метод направлен на поиск разбиения выборки с минимальным разбросом. В отличие от иерархических агломеративных методов, которые требуют вычисления и ранения матрицы сходств между объектами размерностью N N, итеративные методы работают непосредственно с первичными данными. Поэтому с их помощью возможно обрабатывать довольно большие множества данных Более того, итеративные методы делают несколько просмотров данных и могут компенсировать последствия плохого исходного разбиения данных, тем самым устраняя самый главный недостаток иерархических агломеративных методов. Эти методы порождают кластеры одного ранга, которые не являются вложенными, и поэтому не могут быть частью иерархии. Большинство итеративных методов не допускают перекрытия кластеров.

На результаты кластеризации существенное влияние оказывает выбор меры расстояния или меры несходства. В программе кластеризация проводится на основе одной из четырех метрик: евклидово расстояние; корреляционное расстояние; расстояние городских кварталов (Манхеттенское); расстояние Махаланобиса (обобщенное расстояние), вычисляемых по формулам табл.14.7.

Таблица 14.7. Расчетные формулы метрик кластеризации

Показатели Формулы расчета*
1. Евклидово расстояние
2. Корреляционное расстояние
3. Расстояние городских кварталов
4. Расстояние Махаланобиса

* - в табл.14.7. введены следующие обозначения: для пп.1 и 2 и - две точки; rxy - парный коэффициент корреляции между х и у; для пп. 3 и 4 где - общая внутригрупповая дисперсионно-ковариационная матрица, а Хi, Хj - векторы значений переменных для объектов i и j.

Главным недостатком коэффициента корреляции как меры сходства является его чувствительность к форме при сниженной чувствительности к величине различий между переменными. Он также часто не удовлетворяет неравенству треугольника, и корреляция, вычисленная этим способом, не имеет статистического смысла, так как среднее значение определяется по совокупности всевозможных разнотипных переменных, а не по совокупности объектов (смысл "среднего" по разнотипным переменным далеко не ясен). Однако данный коэффициент широко используется в приложениях кластерного анализа.

Несмотря на важность евклидовой и других метрик, они имеют серьезные недостатки. Наиболее важный состоит в том, что оценка сходства сильно зависит от различий в сдвигах данных. Переменные, у которых одновременно велики абсолютные значения и стандартные отклонения, могут подавить влияние переменных с меньшими абсолютными размерами и стандартными отклонениями. Более того, метрические расстояния изменяются под воздействием преобразованной шкалы измерения переменных, при которых не сохраняется ранжирование по евклидову расстоянию. Чтобы уменьшить влияние относительных величин переменных, обычно перед вычислением расстояния переменные нормируют к единичной дисперсии и нулевому среднему.

В отличие от евклидовой и других аналогичных метрик, метрика расстояния Махаланобиса с помощью матрицы дисперсий-ковариаций связана с корреляциями переменных. Когда корреляция между переменными равна нулю, расстояние Махаланобиса эквивалентно квадратичному евклидову расстоянию.

Для графической интерпретации результатов кластерного анализа приводится график расположения исходных объектов в пространстве первых двух главных компонент. При этом объекты, попавшие в один кластер, отображаются одним цветом. Иногда объекты из разных кластеров расположены столь близко, что может создаться иллюзия о неправильной классификации. Это связано с тем, что классификация проводится по большому числу переменных, а график строится по двум координатам, хотя и отражающим основные особенности данных, поэтому расхождения между результатом классификации и графическим отображением неизбежна.

Частотный анализ. Вместе с долговременными изменениями во временных рядах часто появляются некоторые регулярные колебания, изменения наблюдаемых значений которых могут быть строго периодическими или близкими к таковым, оцениваясь в частотном аспекте. Для выявления наличия и устойчивости периода этих колебаний обычно используется математический аппарат частотного анализа: гармонический анализ, спектральный анализ, частотная фильтрация, кросс-спектральный анализ, который в совокупности позволяет с разных позиций анализировать исследуемый показатель, но он эффективен лишь при достаточно большом объеме данных: желательно иметь 200-300 наблюдений, но не менее 50 наблюдений, из которых предварительно исключена тенденция (за исключением методов частотной фильтрации).

При гармонический анализе временной ряд наблюдений представляется линейными комбинациями функций sint - cost, на основании конечного преобразования Фурье с выявлением наиболее существенных гармоник. Если Y(t) - временной ряд t=1,2...T, то имеем:

,

где - оценка математического ожидания ряда Y(t), а последнее слагаемое добавляется в том случае, когда Т - четное число.

Коэффициенты aj, bj, aT/2 вычисляются как

; ; .

Итак, временной ряд можно представить в виде суммы гармоник, при этом мощность каждой из них определяется как , а k - я гармоника считается статистически значимой, если она вносит существенный вклад в дисперсию временного ряда, (т.е. если отвергается статистическая гипотеза о том, что Rk=0). Для проверки гипотезы вычисляется критерий вида

где - оценка дисперсии отклонения вычисляемых значений от фактических.

Вычисляемая величина имеет F -распределение с v1= 2 и v2 = Т- 3 степенями свободы. Гипотеза отвергается (гармоника считается значимой), если вычисленная величина больше, чем 95% точка F-распределения с соответствующими степенями свободы.

При спектральном анализе периодограмму x(t), t=0,l,...,Т временного ряда можно рассчитать как

Если исходные данные квантованы с интервалом 1 и частотой Найквиста, для них равной 0.5, то периодограмма и спектральная плотность рассчитывается на интервале от 0 до 0,5 в точках f(j)=j/2M, j=0,1,...M.

Спектральную плотность можно определить по оценке Бартлетта, являющейся усреднением периодограмм, вычисленных по непересекающимся отрезкам временных рядов. Пусть имеем:

где V – ширина временного интервала; I – номер интервала; S - смещение текущего временного интервала относительно предыдущего.

Тогда оценка спектральной плотности получается как

Спектральные оценки можно сглаживать при помощи "окон", обеспечивающих уменьшение дисперсии выборочной спектральной плотности. На практике из множества известных окон обычно используются: а) прямоугольное окно вида: ; б) окно Тьюки-Хеннинга вида ; в) окно Парзена следующего вида


Параметры, необходимые для расчета спектра мощности, рассчитываются по следующему алгоритму: 1) вычисляют значение V: V=n/3 (n - число наблюдений); если V<10, то принимают V=10; если V>50, то принимают V=50; 2) определяют велич


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: