double arrow

Общие понятия корреляционного анализа

1

Реферат

По дисциплине: Правовая статистика

на тему: корреляционный и регрессионный анализ

Выполнил: курсант 1-го курса ФПД-13-1

Рядовой полиции

Б.Б.Балданов

Проверил:

преподаватель кафедры полковник полиции

Демаков В.И.

Иркутск 2014

Оглавление

Введение. 3

Общие понятия корреляционного анализа. 4

Общие понятие регрессионного анализа. 15

Заключение. 20

Список литературы.. 21


Введение

Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Сейчас очень трудно назвать ту сферу, в которой она бы не использовалась. Ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в ОВД, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.

В показателях преступлений часто решают задачу выявления факторов, определяющих уровень и динамику роста преступности. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в ОВД необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.

Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.

Общие понятия корреляционного анализа

Важнейшим услови­ем деятельности в сфере борьбы с преступностью является знание причинно-следственных отношений между показателями, характери­зующими состояние, динамику и структуру социально-экономических процессов, преступности и функционирования органов внутренних дел.

Однако в настоящее время уже недостаточно лишь констатиро­вать наличие существующих связей, их нужно измерять. Количест­венное их измерение и получаемые на этой основе выводы во многом определяют выбор конкретных форм и методов деятельности в сфере борьбы с преступностью.

Для точного выражения зависимости между переменными (признаками, показателями) в математике применяется понятие функции, функциональной зависимости Y=F(x), где каждому значе­нию одной величины «х» соответствует определенное значение вто­рой величины «у». Например, длина тормозного пути Y зависит от скорости автомобиля Х в момент торможения: Y = a*fS* у*Х2. При этом в формулу определения длины тормозного пути эта ско­рость входит в квадрате. В формулу также введены коэффициенты, учитывающие механические свойства рабочей поверхности колеса и поверхности дороги, состояние дорожного покрытия и продольного уклона дороги. Эти постоянные коэффициенты берутся из таблиц.

По отношению к событиям функциональная зависимость всегда выступает в виде причинной, т.е. наступление одного события (причины, в нашем случае - конкретное значение скорости в момент торможения) всегда влечет наступление другого (следствия, в нашем примере - определенная длина тормозного пути).

При анализе зависимостей в социальной сфере в большинстве случаев нельзя установить однозначного соответствия между какими-либо социальными признаками. Значению некоторого социального признака может соответствовать множество значений другого призна­ка. В этом случае какое-либо событие (причина) не обязательно приво­дит к определенному результату (следствию). Изменение признака со­ответствует множеству изменений других признаков, колеблющихся возле некоторой средней величины. Такие зависимости называются стохастическими. Так, улучшение некоторых социально-экономиче­ских условий жизни населения не обязательно в каждом конкретном случае приводит к снижению преступности, что обусловлено действи­ем множества других факторов, т.е. стохастической природой преступ­ности и ее связью с другими, не только социальными, явлениями.

Приведем еще один пример. Практика подтверждает, что в тех регионах, где количество преступлений, приходящихся на одного ра­ботника милиции (нагрузка), больше, там ниже процент раскрывае-мости преступлений. Однако эта закономерность проявляется лишь статистически, а не функционально.

Статистическая зависимость уровня преступности от нагрузки на одного сотрудника милиции

Y Х          
           
         
         
  -   -   -    

Рассмотрим таблицу №1. В ней приведены статистические данные по некоторому региону: Y - количество преступлений в расчете на 10 тыс. человек населения (уровень преступности), Х - количество пре­ступлений, приходящихся на одного работника милиции (нагрузка). В регионе выбирались 10 городов с примерно одинаковой нагрузкой на одного работника милиции (всего 40 городов).

Как видно из таблицы №2 при нагрузке Х = 30

уровень преступности в пяти городах равен 100, в четырех городах - Y = 110, в одном городе - Y = 120, т.е. одному значению Х соответствует несколько значений Y. С дру­гой стороны, уровень пре­ступности Y = 100 отмечен в 12 городах с различной на­грузкой: в пяти городах - Х = 30, в четырех городах - Х = 35, в трех городах - Х = 45, т.е. одному значению Y соответствует несколько значений X.

Тенденция проявляется лишь в среднем. Так, для Х = 30 среднее значение Yep = (100*5 + 110*4 + 120*1)/10 = 106. Поступая аналогич­ным образом, получим:

Y          
Х          
X          
Y        

Корреляционной связью называется такая статистическая зави­симость, которая проявляется в виде тенденций для средних величин значений показателей, при этом каждому значению показателя, вы­бранного в качестве независимой переменной или факторного при­знака (X), соответствует множество значений другого показателя, вы­бранного в качестве зависимой переменной или результативного при­знака (Y), и наоборот.

Особенность корреляционных связей заключается в том, что они (в отличие от функциональных связей) являются неполными. Анализируя, например, зависимость между нагрузкой (факторным признаком) и раскрываемостью преступлений (результативным при­знаком), приходим к выводу, что на раскрываемость действуют и дру­гие факторы, причем они оказывают влияние в разных направлениях (так, высокий уровень профессиональной подготовленности сотруд­ников милиции будет положительно воздействовать на результаты их работы, а слабая оснащенность техническими средствами, напротив, будет отрицательно влиять на результаты их деятельности).

Для изучения корреляционной связи разработаны специальные методы, и в частности корреляционный анализ.

Корреляционный анализ - комплексное использование в опреде­ленной последовательности совокупности различных статистических методов обработки информации, позволяющее при выполнении неко­торых условий найти форму, направление и величину или тесноту взаимосвязей между признаками.

По форме корреляционные связи могут быть линейными и кри­волинейными. Для корректного применения корреляционного анали­за требуется обоснование близости распределения значений фактор­ного и результативного признаков к нормальному и формы связи к линейной. В противном случае необходимо использовать специаль­ные приемы анализа или другие коэффициенты связи.

Следующим условием применимости корреляционного анализа является условие достаточности объема значений признаков и их од­нородности. Чем хуже выполняется это условие, тем более сложный математический аппарат надо привлекать для получения надежных и достоверных выводов.

По направлению (типу) корреляционные связи можно разделить на прямые (положительные) и обратные (отрицательные). При пря­мой связи увеличение факторного признака ведет к увеличению ре­зультативного признака (например, связь между нагрузкой на одного сотрудника милиции и уровнем преступности), а при обратной - уве­личение факторного признака ведет к уменьшению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и процентом раскрываемое™ преступлений).

Сила или теснота корреляционной связи характеризуется раз­личными коэффициентами, измеряющими эту связь. Так, для метри­ческих шкал используется линейный коэффициент корреляции (Пирсона) - г. Коэффициент корреляции - величина относительная, он выражается в долях единицы от -1 до +1.

Обычно считается, что г < 0,3 указывает на слабую связь, при 0,3 < г < 0,5 связь признается умеренной, при 0,5 < г < 0,7 корреляция является значительной, а при 0,7 < г < 0,9 - сильной и при г > 0,9 -очень сильной, близкой к функциональной связи.

Следует отметить, что коэффициент корреляции позволяет оп­ределить не только тесноту, но и направление связи ( на это указыва­ют знаки «+» или «-«).

Корреляционный анализ не заканчивается только подсчетом г. Необходимо проверить значимость коэффициента корреляции при за­данном уровне. Если г > г кр. (критическое значение г кр. находят по специальным таблицам), то полученному результату можно доверять;

если г< г кр., то рассчитанному коэффициенту корреляции доверять

нельзя.

На уровень преступности влияет множество факторных призна­ков. К' ним относятся социально-экономические, географические и климатические, демографические и другие признаки, а также призна­ки, характеризующие силы и средства, степень организованности ОВД.

Пусть п - число этих признаков. Тогда Y = Y(Xl,X2,X3,...Xn).

Задача корреляционного анализа - выявить те факторные признаки, которые наиболее существенно влияют на результативный признак Y, а остальными можно пренебречь.

Пусть, например, после вычислений коэффициентов корреля­ции оказалось, что Y = Y(X9, X21, Х45). Тогда руководитель органа внутренних дел при разработке плана мероприятий должен в первуюочередь включать в него такие, которые влияют на перечисленные факторные признаки.

Для нас представляет интерес рассмотрение корреляционных зависимостей динамических рядов. Факторные и результативные при­знаки могут меняться во времени, т.е. представлять динамические ря­ды. Между ними также можно количественно измерить тесноту связи, используя коэффициенты корреляции. Однако, чтобы использовать методы корреляционного анализа, надо выполнить ряд условий.

Динамическим рядам свойственны колебания различных типов. Первый тип - сезонные, примерно одинаковые внутригодичные коле­бания. Второй тип - трендовые, или длительные, колебания, выра­женные постоянным увеличением (уменьшением) средних уровней, как проявлением общей тенденции развития явления. Третий тип -эксцессы, нерегулярные колебания, вызванные такими факторами, как стихийные бедствия, неурожаи, военные действия и т.п. Четвер­тый тип - колебания циклические, повторяющиеся через длительные и не обязательно одинаковые промежутки времени. Эти колебания проявляются в результате изменения хозяйственной деятельности, скачка научно-технического прогресса и т.п.

Корреляцию динамических рядов можно применять только для однотипных динамических рядов, имеющих одинаковый тип колеба­ний. Это первое условие.

Вторым условием применимости корреляционного анализа яв­ляется замена эмпирических данных (уровней) динамических рядов расчетными значениями. Для этого каждый эмпирический ряд надо выровнять теоретической кривой, наиболее близко описывающей ди­намический ряд. Только после замены эмпирических уровней на рас­четные можно вычислять коэффициенты корреляции г.

При коррелировании рядов динамики надо обращать внимание на возможность изменений уровней одного ряда динамики на уровни другого со сдвигом во времени. Встречаются такие взаимосвязи между явлениями, когда изменения одного явления вызывают изменения дру­гого не сразу, а через какой-то период времени (так, изменение структу­ры органа внутренних дел может сказаться на результативности работы с запаздыванием). В этом случае необходимо совместить динамические ряды, чтобы устранить сдвиг. Этот сдвиг называется лагом.

Для динамических рядов можно также установить, усиливается или ослабевает связь между рядами динамики во времени, т.е. увели­чивается или уменьшается коэффициент корреляции между анализируемыми явлениями. Для ответа на этот вопрос иногда достаточно разделить каждый из сопоставляемых рядов динамики на два во вре­мени и для каждой пары новых рядов вычислить коэффициенты кор­реляции.

Построение таблицы парных корреляций. Вычисление коэф­фициентов корреляции будем проводить на отдельном рабочем листе. Для получения коэффициентов корреляции выполняем следующую последовательность действий:

· вызываем «Мастера функций» и среди статистических функ­ций активизируем функцию «Корреляция»;

· в строку «массив 1» вводим диапазон динамического ряда «Уровень преступности», являющегося результативным или зависи­мым признаком;

· в строку «массив 2» вводим данные факторного или независи­мого признака «Доля городского населения».

· нажимаем на клавишу «Закончить», чтобы получить коэффи­циент корреляции, показывающий степень влияния доли городского населения на уровень преступности.

В результате в ячейке В2 появляется г = 0,66 (см. табл. 3.8.11). Скопируем формулу коэффициента корреляции, находящуюся в ячей­ке В2, в диапазон ячеек ВЗ:В12.

Таблица № 3. Коэффициенты корреляции с лагом 0,1, 2

А В С D   Е   F   G   Н   I  
Корреляция уровня преступности               макс   лаг  
Доля городского населения 0,66   0,72   0,71   0,66   0,72   0,71   0,72    
Доля несовершеннолетних 0,80   0,71   0,07   0,80   0,71   0,07   0,80    
Доля ранее судимых (на 10 тыс.) 0,96   0,71   -0,28   0,96   0,71   0,28   0,96    
Доля незанятых (на 100 тыс.) 0,91   0,43   -0,36   0,91   0,43   0,36   0,91    
Доля наркоманов (на 100 тыс.) 0,65   0,73   0,73   0,65   0,73   0,73   0,73    
Доля иммигрантов (на 1 тыс.) 0,32   0,67   0,89   0,32   0,67   0,89   0,89    
Потребление алкоголя (на душу) 0,91   0,51   -0,38   0,91   0,51   0,38   0,91    
Выпуск промышленной продукции -0,22   0,13   0,54   0,22   0,13   0,54   0,54    
Выпуск сельхозпродукции -0,49   -0,29   0,04   0,49   0,29   0,04   0,49    
Плотность сотрудников ОВД (на 10 тыс.) 0,12   -0,33   -0,64   0,12   0,33   0,64   0,64    
Плотность сотрудников УР (на 10 тыс.)   0,57   -0,17   -0,76   0,57   0,17   0,76   0,76    
                   

Результаты расчета представлены в табл. 3.8.11 в колонке В. Проведенные расчеты показывают, что наиболее сильное влияние на преступность оказывают три признака: доля ранее судимых (г4 = 0,96), доля незанятых (г5 = 0,91), потребление алкоголя (rg= 0,91). По­этому руководитель органа внутренних дел должен в первую очередь обратить внимание на эти показатели в текущем году (девятом перио­де).

Будем считать, что указанные три признака проявляют себя по­стоянно, без запаздывания. Поэтому эти три параметра наиболее ак­тивны в период с лагом 0.

Возникает вопрос, какие факторные признаки проявят себя в следующем году (десятом периоде), если для перечисленных призна­ков был разработан комплекс мероприятий с целью снижения их влияния на преступность. Чтобы определить, какие признаки проявят себя на следующий год с лагом 1, нужно сдвинуть слева направо динамический ряд «уровень преступности» на один год, но поскольку данных за десятый период нет, количество его членов станет равным восьми. Что касается факторных признаков, то они сдвигаются справа налево на один период, исключая текущий год. Таким образом, число их уровней также станет равным восьми.

Подсчитываем коэффициенты корреляции для лага 1. Результа­ты расчета представлены в столбце С. Как видно из таб­лицы, в следующем (десятом) периоде влияние указанных ранее трех признаков снизилось (очевидно, из-за активной работы органа внут­ренних дел), но усилилось влияние таких признаков, как доля нарко­манов и доля городского населения.

Повторяем те же операции для лага 2. т.е. сдвигаем динамиче­ские ряды на два периода. На основе рассчитанных коэффициентов корреляции вычислим влияние факторных признаков в 11-м периоде. Как видно из табл. 3.8.11 (колонки D), наиболее существенно влияю­щими на преступность в 11-м периоде являются доля иммигрантов (г = 0,89), плотность сотрудников УР (г = -0,76), доля наркоманов (г = 0,73) и по-прежнему доля городского населения (г = 0,71).

Далее в столбцы Е, F, G вводим абсолютные значения коэффи­циентов корреляции (т.е. без знака «минус»). Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах В, С и D, математическую функцию ABS.

Находим теперь максимальное значение коэффициентов корре­ляции для каждого признака, в зависимости от лагов. Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах Е, F, G, статистическую функцию «Макс». Результаты расче­та приведены в столбце Н табл. 3.8.11.

Теперь наша задача заключается в том, чтобы определить, ка­кому лагу соответствует максимум, находящийся в ячейках столбца Н. В принципе это можно сделать визуально и ввести в колонку 1 зна­чения лагов вручную. Однако это можно выполнить с помощью логи­ческой функции «ЕСЛИ». Снова заполнение столбца 1 выполнит «Мастер функций». В окончательном виде имеем таблица №3, которая позволяет провести анализ влияния факторных признаков на резуль­тативный признак в различные периоды времени.

1

Сейчас читают про: