double arrow

Проведение многофакторного корреляционного анализа


При проведении многофакторного корреляционного анализа необходимо учитывать возможность возникновения явления мультиколлениарности (явление «снежного кома»). Оно возникает тогда, когда в уравнение многофакторной зависимости включаются параметры (факторы) тесно связанные между собой. Чтобы этого избежать, в уравнения регрессии в качестве переменных должны включаться только независимые факторы. Если количество параметров x1, x2, … в исследовании невелико, то выделить независимые факторы можно с помощью критерия Стьюдента. Для этого:

1) составляется матрица парных коэффициентов корреляции, имеющая треугольную форму, поскольку rx1, x2 = rx2, x1;

2) для каждой пары факторов, которые включаются в уравнение, рассчитывается критерий Стьюдента tрасч = │r │ / (1 – r2) / √ (n – 1).

Если tрасч > tтабл., то связь признается существенной, и из двух выделенных факторов в уравнение регрессии должен включаться лишь один.

Для практических целей количество факторов в многофакторной модели не должно превышать 6–7.

Для построения модели используют метод стандартизированного масштаба. При этом на первом этапе получают не само уравнение регрессии, а его стандартизированный вид:

Коэффициенты β в этом уравнении позволяют перейти к натуральному масштабу, а кроме того, они показывают, на какую часть своего стандартного отклонения изменяется у, если х изменится на одно стандартное отклонение. Исходя из этого, β-коэффициенты считаются аналогом показателя устойчивости и позволяют определить те параметры, которые требуют особого контроля в автоматических системах управления или дополнительных приемов стабилизации.

Для построения уравнения в стандартизированном масштабе используется матрица парных коэффициентов корреляции. На ее основе составляется система нормальных уравнений. Количество уравнений и столбцов в ней зависит от числа неизвестных:

Стандартизированное уравнение переводится в натуральный масштаб, с помощью следующих формул:

;

;

y = b0 + b1x1 + b2x12 + …

Полученное уравнение регрессии требуется оценить на значимость. Оценку производят следующим образом:

1. Определяется остаточная дисперсия

,

где К – число факторов.

2. Рассчитывается критерий Фишера F = σ2 / σост2. Если Fрасч > Fтабл, то полученное уравнение хорошо описывает исследуемую зависимость. Чем больше критерий Фишера, тем более уравнение регрессии подходит для целей прогноза.

3. Рассчитывается коэффициенты множественной корреляции:

= √ (1 – σост2 / σ2).

4. Рассчитываются коэффициенты множественной детерминации R2.

5. Дополнительно рассчитывается среднеквадратичная ошибка коэффициента корреляции: Sk = (1 – R) / √ (N – k – 1).

6. Определяется существенность коэффициента множественной корреляции: tрасч. = R / Sk. Если tрасч > tтабл, то коэффициент множественной корреляции считается существенным.

Составим по этим правилам матрицу расчетных критериев Стьюдента для всех 8 исследуемых факторов х1, х2, …, х8, сведенные в приведенную ниже таблицу:

  x1 x2 x 3 x4 x5 x6 x7 x8
x1 3,6757 2,6550 0,0280 0,5173 1,0478 2,5745 0,1641
x2 3,6757 62,2734 1,4791 0,2527 2,6270 10,8963 1,1329
x3 2,6550 62,2734 2,2296 0,0805 3,7414 6,4842 1,6404
x4 0,0280 1,4791 2,2296 1,5261 1,5071 0,4652 1,6365
x5 0,5173 0,2527 0,0805 1,5261 0,3673 0,3721 0,6368
x6 1,0478 2,6270 3,7414 1,5071 0,3673 1,2997 5,4576
x7 2,5745 10,8963 6,4842 0,4652 0,3721 1,2997 0,7004
x8 0,1641 1,1329 1,6404 1,6365 0,6368 5,4576 0,7004

Проверка на существенность и отсев второстепенных факторов производится сравнением с табличным значением tтабл = 1,71. Если связь признается существенной, то из двух выделенных факторов в уравнение регрессии должен включаться лишь один. После этого можно строить многофакторную зависимость. Построим следующие две многофакторные модели (см. табл. 1 приложения):

1. Зависимость количества переработанной руды (1) от содержания металла в руде (2), содержания металла в концентрате (4), содержание серы в концентрате (5), извлечения (6).

Стандартизированный вид уравнения:

у10 = β1 х20 + β2 х40 + β3 х50 + β4 х60 =

= –0,418 х20 + 1,014х40 – 1,339 х50 + 1,115 х60.

Уравнение в натуральном масштабе:

y1 = b0 + b1 x2 + b2 x4 + b3 x5 + b4x6 =

= 1136,08 – 122,97х2 + 529,16х4 – 17,92х5 + 2034,78х6.

Проведем оценку значимости уравнения многофакторной регрессии:

Остаточная дисперсия 11144,17
Расчетное значение критерия Фишера Fрасч 0,16
Коэффициент множественной корреляции 0,35
Коэффициент множественной детерминации 0,125
Среднеквадратичная ошибка корреляции Sk 0,168
Расчетное значение критерия Стьюдента tрасч 2,14
Табличное значение критерия Стьюдента tтабл. 1,70
Существенность коэффициента множественной корреляции 2,098

Сравнивая табличное значение критерия Стьюдента с расчетным значением, можно сделать вывод о том, что коэффициент множественной корреляции существенен. Однако значение критерия Фишера Fрасч = 0,16 очень мало, значит, данное уравнение нельзя использовать на практике для планирования и проектирования АСУТП. В то же время, хотя уравнение плохо описывает реальный процесс, его можно использовать для анализа.

2. Зависимость извлечения (6) от количества перерабатываемой руды (1), содержания металла в руде (2), содержания металла в хвосте (7), содержания металла в сульфате (8).

Стандартизированный вид уравнения:

у60 = β1 х1 0 + β2 х20 + β3 х70 + β4 х80 = 0,004 4 х10 + 1,368х20 +

+ 1,272 х70 + 1,181 х80.

Уравнение в натуральном масштабе:

у = 55,31 + 0,0003х1 + 43,27х2 – 37,34х7 + 2,78х8.

Проведем оценку значимости уравнения многофакторной регрессии:

Остаточная дисперсия 10,099
Расчетное значение критерия Фишера Fрасч 0,993
Коэффициент множественной корреляции 0,855
Коэффициент множественной детерминации 0,7307
Среднеквадратичная ошибка корреляции Sk 0,052
Расчетное значение критерия Стьюдента tрасч 16,49
Табличное значение критерия Стьюдента tтабл. 1,70

Табличное значение критерия Стьюдента значительно меньше расчетного, tрасч > tтабл., отсюда можно сделать вывод о том, что коэффициент множественной корреляции существенен. Значение критерия Фишера Fрасч = 0,993 больше по сравнению со значением критерия Фишера для первой рассмотренной зависимости, значит, последняя зависимость является более пригодной для прогноза.

В то же время, поскольку значение критерия Фишера мало, его нельзя использовать на практике для планирования и проектирования АСУТП, поскольку зависимость плохо описывает реальный процесс.

Графики и номограммы

Графики и номограммы служат для наглядного представления полученных уравнений многофакторной регрессии. Графики используются для анализа влияния каждого из входящих в уравнение факторов хi, на результирующий показатель у. Для построения графика все параметры, кроме одного, фиксируются на среднем уровне. Номограмма может быть использована как рабочий документ по двум направлениям:

– для определения уровня у по заданным уровням хi ;

– для определения уровней хi по заданному уровню у.

Рассмотрим две зависимости (см. табл. 1 приложения).

1. Зависимость количества переработанной руды (1) от содержания металла в руде (2), содержания металла в концентрате (4), содержания серы в концентрате (5), извлечения (6) (рис. 8.1).

Стандартизированный вид уравнения регрессии:

у10 = –0,418х20 + 1,014х40 1,339х50 + 1,115х60.

Уравнение регрессии в натуральном масштабе:

у = 1136,08 – 122,97х 2 + 529,16х 4 – 17,92х5 + 2034,78х6.

Рис. 8.1. Результирующий показатель

Графики на рис. 8.1 показывают, что наибольшее влияние на результирующий показатель у (количество переработанной руды) оказывает параметр х6 (извлечение). Очень слабое влияние оказывает х4 (содержания металла в концентрате). Негативную роль играют х2 и х5 (содержания металла в руде и серы в концентрате).

Для построения линий номограммы следует проанализировать β-коэффициенты в стандартизированном уравнении. Минимальное значение имеет β1, т. е. содержания металла в руде (х20) оказывает наименьшее воздействие на выходную величину. Поэтому усредняем х20 (х20 = 0,58). Из оставшихся параметров находим тот, при котором β-коэффициент имеет минимальное значение. Из оставшихся параметров минимальное значение принимает β4, следовательно, содержание металла в концентрате (х40) будет формировать линии на монограмме (рис. 8.2).

2. Зависимость извлечения (6) от (рис. 8.3) количества перерабатываемой руды (1), содержания металла в руде (2), содержания металла в хвосте (7), содержания металла в сульфате (8).

Стандартизированный вид уравнения:

у60 = 0,004 4х10 + 1,368х20 – 1,272х70 – 1,181х80.

Уравнение регрессии в натуральном масштабе:

у = 55,31 + 0,000 3 х1 + 43,27х2 – 37,34х7 + 2,78х8.

Рис. 8.2. линии номограммы:

Рис. 8.3. Зависимость извлечения:

Графики на рис. 8.3, показывают, что наибольшее влияние на результирующий показатель у6 (извлечение) оказывает параметр х2 (содержания металла в руде). Почти не играет роли х1 (количество переработанной руды). Малое влияние оказывает х8 (содержание металла в сульфате), слабо негативную роль играет х7 (содержание металла в хвосте).

Для построения линий номограммы анализируются β-коэффи-
циенты в стандартизированном уравнении. Минимальное значение имеет β1, т. е. количества перерабатываемой руды (х10) оказывает наименьшее воздействие на выходную величину. Поэтому усредняем х10 (х10 = 253,68). Из оставшихся параметров находим тот, при котором β-коэффициент имеет минимальное значение, т. е. β4, следовательно. содержание металла в сульфате (х80) будет формировать линии на монограмме (рис. 8.4).

Рис. 8.4. линии номограммы


Сейчас читают про: