Статистический анализ взаимосвязей явлений
Лекция № 17
Любое явление находится в связи с другими явлениями. Исследование таких взаимосвязей – важнейшая задача статистики.
Различают два вида связей, существующих между явлениями,
Функциональной называется зависимость, при которой одному значению факторного признака строго соответствует единственное значение результативного признака.
Стохастическая зависимост ь характеризуется тем, что результативный признак неполностью определяется факторным признаком, его влияние проявляется в среднем при достаточно большом числе наблюдений.
Наиболее часто для исследования стохастических зависимостей используют метод корреляции.
Термин корреляция происходит от английского слова correlation – соотношение, соответствие.
К изучению связи методом корреляции обращаются в том случае, когда нельзя изолировать влияние посторонних факторов. При этом число наблюдений должно быть достаточно велико, так как малое число наблюдений не позволяет обнаружить закономерность связи.
|
|
Первая задача корреляции заключается в математическом выражении изменения результативного признака в связи с изменением одного или несколько факторных признаков. Данная задача решается определением уравнения регрессии и носит название регрессионного анализа. Вторая задача состоит в определении степени влияния искажающих факторов –различных показателей тесноты связи и называется корреляционным анализом.
Регрессионный анализ включает в себя этапы:
1. Логический анализ – разделение коррелирующих признаков на факторные и результативный.
2. Определение типа зависимости. Корреляционная зависимость называется парной, если она имеет место между двумя признаками (факторным и результативным), и множественной (многофакторной) – между тремя и более связанными между собой признаками.
Парная зависимость называется прямолинейной, если может быть описана уравнением прямой линии и криволинейной, описываемой уравнением:
гиперболы ,
параболы и т.д.
Определить тип уравнения зависимости можно, исследуя зависимость графически, построением корреляционного поля или эмпирической линии регрессии.
При построении корреляционного поля в системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой, как это показано на рис. 1.4.
y
x
Рис. 1.4. График корреляционного поля
При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем теснее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связей.
|
|
Эмпирическая линия регрессии строится в системе координат, где на оси абсцисс откладывается значение факторного признака, а на оси ординат рассчитанное среднее для данного факторного признака значение результативного.
3. Определение параметров уравнения регрессии.
Оценка параметров уравнения регрессии (а0, а1, а2 и т.д.) осуществляется методом наименьших квадратов на основе системы нормальных уравнений.
Для нахождения параметров линейной парной регрессии () система нормальных уравнений имеет вид:
.
Для гиперболы
.
Для параболы второго порядка
.
Для многофакторной зависимости:
.
……………………………………………………………………
.
В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных в уравнении факторных признаков, а коэффициенты регрессии а1, а2, …, аn показывают, на сколько изменяется в среднем значение результативного признака при увеличении факторного признака на единицу собственного измерения.