План.
1. Причинность, регрессия, корреляция.
- Основные задачи и предпосылки применения корреляционно-регрессионного анализа.
- Парная регрессия на основе метода наименьших квадратов и метода группировок.
- Множественная регрессия.
- Оценка существенности связи.
- Собственно-корреляционные параметрические методы изучения связи. Оценка существенности корреляции.
- Методы изучения связи социальных явлений.
- Непараметрические показатели связи. Ранговые коэффициенты связи.
Литература.
1. Елисеева И.И. Статистика: учебник. М.: Финансы и статистика, 2005.
2. Статистика / под ред. В.С. Мхитаряна. М.: Академия, 2006.
3. Гусаров В.М. Статистика: учеб. пособие для студентов вузов, обучающихся по экономическим специальностям / В.М.Гусаров, Е.И. Кузнецова. – 2-е изд., перераб. и доп. – М.: ЮНИТИ-ДАНА, 2007.
Причинность, регрессия, корреляция.
Исследование объективно существующих связей между явлениями - важнейшая задача общей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения - это связь явлений и процессов, когда изменение одного из них - причины - ведет к изменению другого - следствия.
Причина - это совокупность условий, обстоятельств, действие которых приводит к появлению следствия. Если между явлениями действительно существуют причинно-следственные отношения, то эти условия должны обязательно реализовываться вместе с действием причин. Причинные связи носят всеобщий и многообразный характер, и для обнаружения причинно-следственных связей необходимо отбирать отдельные явления и изучать их изолированно.
Особое значение при исследовании причинно-следственных связей имеет выявление временной последовательности: причина всегда должна предшествовать следствию, однако не каждое предшествующее событие следует считать причиной, а последующее следствием,
В реальной социально-экономической действительности причину и следствие необходимо рассматривать как смежные явления, появление которых обусловлено комплексом сопутствующих более простых причин и следствий. Между сложными группами причин и следствий возможны многозначные связи, когда за одной причиной будет следовать то одно, то другое действие или одно действие имеет несколько различных причин. Чтобы установить однозначную причинную связь между явлениями или предсказать возможные следствия конкретной причины, необходима
полная абстракция от всех прочих явлений в исследуемой временной или пространственной среде. Теоретически такая абстракция воспроизводится. Приемы абстракции часто применяются при изучении взаимосвязей между двумя признаками (парной корреляции). Но чем сложнее изучаемые явления, тем труднее выявить причинно-следственные связи между ними. Взаимное переплетение различных внутренних и внешних факторов неизбежно приводит к некоторым ошибкам в определении причины и следствия.
Особенностью причинно-следственных связей в социально-экономических явлениях является их транзитивность, т. е. причина X и следствие У связаны соотношением X—»Х'—>Х"-»У, а не непосредственно X—>У. Однако промежуточные факторы, как правило, при анализе опускаются.
Так, например, используя показатели международной методологии расчетов, фактором валовой прибыли (У) является валовое накопление основных и оборотных фондов (X), но при этом допускаются такие факторы, как валовой выпуск (X'), оплата труда (X") и т. д. Правильно вскрытые причинно-следственные связи позволяют установить силу воздействия отдельных факторов на результаты хозяйственной деятельности.
Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.
В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап - построение модели связи. Он базируется на методах статистики: группировках, средних величинах, таблицах и т. д. Третий, последний этап - интерпретация результатов -вновь связан с качественными особенностями изучаемого явления.
Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и от поставленных задач. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными, или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явления
|
ми и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.
В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.
Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
По степени тесноты связи различают количественные критерии оценки тесноты связи (табл. 1).
Таблица.1 Количественные критерии оценки тесноты связи
| Величина коэффициента корреляции | Характер связи |
До - - - | Практически отсутствует Слабая Умеренная Сильная |
По направлению выделяют связь прямую и обратную. При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. Так, например, рост производительности труда способствует увеличению уровня рентабельности производства. В случае обратной связи значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением факторного признака. Так, с увеличением уровня фондоотдачи снижается себестоимость единицы производимой продукции.
По аналитическому выражению выделяют связи прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена
уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, показательной, экспоненциальной и т. д.), то такую связь называют нелинейной, или криволинейной.
В статистике не всегда требуются количественные оценки связи, часто важно определить лишь ее-направление и характер, выявить форму воздействия одних факторов на другие. Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; графический; корреляции.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере. Сравним изменения двух величин X и У:
С увеличением величины X величина У также возрастает. Поэтому связь между ними прямая, и описать ее можно или уравнением прямой, или уравнением параболы второго порядка.
| X | |||||||||
| Y |
Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного. Каждое пересечение линий, проводимых через эти оси, обозначается точкой. При отсутствии тесных связей имеет место беспорядочное расположение точек на графике. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.1).

Рис. 1. График корреляционного поля.
Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака на него оказывают воздействие многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер и аналитически выражаются функцией вида ух = f(x).
Корреляция - это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция - связь между двумя признаками (результативным и факторным или двумя факторными).
2. Частная корреляция - зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определять «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.
Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной).
По 'форме зависимости различают:
а) линейную регрессию, которая выражается уравнением пря
мой (линейной функцией) вида: 
б) нелинейную регрессию, которая выражается уравнениями
вида:
парабола - 
гипербола -
и т. д. х
По направлению связи различают:
а) прямую регрессию (положительную), возникающую при
условии, если с увеличением или уменьшением независимой
величины значения зависимой также соответственно увеличива
ются или уменьшаются;
б) обратную (отрицательную) регрессию, появляющуюся при
условии, что с увеличением или уменьшением независимой ве
личины зависимая соответственно уменьшается или увеличива
ется.
Положительную и отрицательную регрессии можно легче понять, если использовать их графическое изображение (рис.2,3).


Для простой (парной) регрессии в условиях, когда достаточно полно установлены причинно-следственные связи, приобретает практический смысл только последнее положение; при множественности причинных связей невозможно четко разграничить одни причинные явления от других.
- Основные задачи и предпосылки применения корреляционно-регрессионного анализа.
Различают два типа связи между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную с другой стороны.
Если с изменением одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.
При стохастически детерминированной связи (статистической) с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, т.е. разным значениям одной переменной соответствуют разные распределения значений другой переменной.
Частным случаем статистической связи является корреляционная связь.
Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.
Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.
Методы изучения статистической связи.
Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).
Могут иметь место различные формы связи:

прямолинейная
линейные связи являются основными и применяются также и при многофакторном анализе.
криволинейная в виде:
параболы второго порядка (или высших порядков)
параболической связью описывается взаимосвязь при которой характер связи между факторным и результативным признаком может измениться на противоположный при прохождении некоторого оптимального значения.

гиперболы
гиперболические зависимости характерны для связей, в которых результативный признак не может варьироваться неограниченно, его вариация имеет односторонний предел.

показательной функции
![]() |
Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):
![]() |
![]() |
Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения:
где -

дисперсия в ряду выравненных значений результативного показателя; -

дисперсия в ряду фактических значений у.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать следующие формулы:
![]() |
Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.
Общий вид многофакторного уравнения регрессии имеет вид:
y = a + b1x1 +.. + bkxk
Многофакторная система требует не одного, а множества показателей тесноты связей. Основой измерения связей является матрица коэффициентов корреляции. На основе этой матрицы судят о тесноте связи факторов с результативным признаком и между собой. Не рекомендуется включать в уравнение регрессии факторы слабо связанные с результативным признаком, но тесно связанные с другими факторами. Множественный коэффициент корреляции определяется как отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов, к общей вариации результативного признака за счет всех факторов. Под вариацией понимается сумма квадратов отклонений индивидуальных значений от расчетных по уравнению регрессии (объясненная вариация) или от общей средней величины признака (общая вариация).
Для случая двух факторов коэффициент множественной детерминации вычисляется по формуле из парных коэффициентов корреляции::

Коэффициент частной детерминации фактора xm – это доля вариации у, не объясненной ранее включенными факторами. Если обозначить частный коэффициент детерминации ддя фактора xm как
Тогда 
Основные задачи применения корреляционно-регрессионного анализа.
В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной; 2) измерение тесноты связи двух (или большего числа признаков) между собой
Задачи корреляционно-регрессионного анализа:
1. Задачи выделения важнейших факторов, влияющих на результативный признак (т.е. вариацию его значений в совокупности). Эта задача решается на базе мер тесноты связи факторов с результативным признаком.
2. Задачи оценки хозяйственной деятельности по эффективности использования факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были получены при средней по совокупности эффективности использования факторов и сравнивания их с фактическими результатами производства.
3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнении связи и вычисления ожидаемых значений результативного признака.
4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач.
При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов.
Непараметрические методы определения тесноты связи.
В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.
Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.
![]() |
Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле
где d = Nx - Ny, т.е. разность рангов каждой пары значений х и у; n - число наблюдений.
К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон, которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.
Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:
| Признаки | А(да) | А(нет) | Итого |
| В(да) | a | b | a + b |
| В(нет) | c | d | c + d |
| Итого | a + c | b + d | n |
Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков; n - общая сумма частот.
![]() |
Коэффициент ассоциации можно рассчитать по формуле
![]() |
Коэффициент контингенции рассчитывается по формуле
Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.
Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений. Коэффициент Фехнера может изменяться в пределах -1,0 Кф +1,0.
Целью применения корреляционно-регрессионного метода является построение такого уравнения регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладающего высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствие с теоретическим знанием о природе связей в изучаемой системе.
При использовании корреляционно-регрессионного метода при анализе социально-экономических явлений необходимо учесть следующие ограничения.
Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если задача состоит в изменении связи не между вариацией двух признаков в совокупности, а меду изменениями признаков объекта во времени, то корреляционно-регрессионный анализ требует значительных изменений.
Корреляционно-регрессионный метод основан на том, что группировка совокупности по одному факторному признаку при условии, что все другие не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же фактор связан с другими факторами, то будет получена не чистая характеристика влияния.
При этом относительная простота и применение компьютерной техники позволяет достаточно широко и эффективно применять данных метод на практике.
Параметрический методы определения тесноты связи состоит в расчете F критерия Фишера, который рассчитывается по формуле:
F= 
где r2 – коэффициент корреляции, n – число единиц в совокупности, к- число степеней свобожы.
Для оценки надежности результатов уравнения регрессии F сравнивают c Fтабл при заданном уровне вероятности. Если полученное значение больше табличного, то можно говорить о высокой степени надежности результатов регрессионного моделирования. Если ниже – то полученные оценки коэффициентов регрессии статистически незначимы.
![]() |
![]() |
где n - количество анализируемых объектов, m - количество экспертов, Rij - ранг j -го объекта, который присвоен ему i -ым экспертом.
Следует обратить внимание на отличие значений коэффициента конкордации от коэффициента корреляции, так как он существует в пределах от 0 до 1. Если мнения экспертов полностью противоположны, коэффициент конкордации равен нулю (W = 0), а коэффициент корреляции в этом случае будет равен -1.
3. Парная регрессия на основе метода наименьших квадратов и метода группировок.
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитическая связь между ними описывается уравнениями:
прямой 
парабола - 
гипербола -
и т. д. х
Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи - гиперболическая. Если факторный признак увеличивается в арифметической прогрессии, а результативный - значительно быстрее, то используется параболическая, или степенная регрессия.
Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности.
Основной принцип метода наименьших квадратов рассмотрим на следующем примере: будем считать, что две величины (два показателя) X и У взаимосвязаны между собой, причем У находится в некоторой зависимости от X. Следовательно, У будет зависимой, а X - независимой величинами






Статистические данные обладают ошибками упрощения, которые возникают как следствие:
• неполноты охвата, потому что часть единиц совокупности, полученных в результате наблюдения, не может быть использована в исследовании;
• неполноты факторов, определяющих то или иное социально-экономическое явление, в силу того, что ни в одно уравнение, или модель, нельзя включить бесконечное число аргументов (во всех случаях отбирается только часть воздействующих факторов, причем отбор носит чисто субъективный характер);
• характера выбранного уравнения связи. Как бы хорошо оно ни было обосновано, как бы теоретически адекватно ни описывало исследуемое явление, оно не может быть его точным аналогом.
Решение вопроса о возможности использования метода наименьших квадратов для изучения связей между социально-экономическими явлениями зависит от свойства оценок, получаемых с помощью этого метода.
Даже при сравнительно небольшом числе наблюдений применение метода наименьших квадратов позволяет получить достоверные оценки.
Метод наименьших квадратов также может быть использован в случаях проведения анализа косвенных наблюдений, являющихся функциями многих неизвестных.








