Реферат
По дисциплине: Правовая статистика
на тему: корреляционный и регрессионный анализ
Выполнил: курсант 1-го курса ФПД-13-1
Рядовой полиции
Б.Б.Балданов
Проверил:
преподаватель кафедры полковник полиции
Демаков В.И.
Иркутск 2014
Оглавление
Введение. 3
Общие понятия корреляционного анализа. 4
Общие понятие регрессионного анализа. 15
Заключение. 20
Список литературы.. 21
Введение
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Сейчас очень трудно назвать ту сферу, в которой она бы не использовалась. Ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в ОВД, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных.
В показателях преступлений часто решают задачу выявления факторов, определяющих уровень и динамику роста преступности. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в ОВД необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого.
Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
Общие понятия корреляционного анализа
Важнейшим условием деятельности в сфере борьбы с преступностью является знание причинно-следственных отношений между показателями, характеризующими состояние, динамику и структуру социально-экономических процессов, преступности и функционирования органов внутренних дел.
Однако в настоящее время уже недостаточно лишь констатировать наличие существующих связей, их нужно измерять. Количественное их измерение и получаемые на этой основе выводы во многом определяют выбор конкретных форм и методов деятельности в сфере борьбы с преступностью.
Для точного выражения зависимости между переменными (признаками, показателями) в математике применяется понятие функции, функциональной зависимости Y=F(x), где каждому значению одной величины «х» соответствует определенное значение второй величины «у». Например, длина тормозного пути Y зависит от скорости автомобиля Х в момент торможения: Y = a*fS* у*Х2. При этом в формулу определения длины тормозного пути эта скорость входит в квадрате. В формулу также введены коэффициенты, учитывающие механические свойства рабочей поверхности колеса и поверхности дороги, состояние дорожного покрытия и продольного уклона дороги. Эти постоянные коэффициенты берутся из таблиц.
По отношению к событиям функциональная зависимость всегда выступает в виде причинной, т.е. наступление одного события (причины, в нашем случае - конкретное значение скорости в момент торможения) всегда влечет наступление другого (следствия, в нашем примере - определенная длина тормозного пути).
При анализе зависимостей в социальной сфере в большинстве случаев нельзя установить однозначного соответствия между какими-либо социальными признаками. Значению некоторого социального признака может соответствовать множество значений другого признака. В этом случае какое-либо событие (причина) не обязательно приводит к определенному результату (следствию). Изменение признака соответствует множеству изменений других признаков, колеблющихся возле некоторой средней величины. Такие зависимости называются стохастическими. Так, улучшение некоторых социально-экономических условий жизни населения не обязательно в каждом конкретном случае приводит к снижению преступности, что обусловлено действием множества других факторов, т.е. стохастической природой преступности и ее связью с другими, не только социальными, явлениями.
Приведем еще один пример. Практика подтверждает, что в тех регионах, где количество преступлений, приходящихся на одного работника милиции (нагрузка), больше, там ниже процент раскрывае-мости преступлений. Однако эта закономерность проявляется лишь статистически, а не функционально.
Статистическая зависимость уровня преступности от нагрузки на одного сотрудника милиции
Y Х | ||||
- | - | - |
Рассмотрим таблицу №1. В ней приведены статистические данные по некоторому региону: Y - количество преступлений в расчете на 10 тыс. человек населения (уровень преступности), Х - количество преступлений, приходящихся на одного работника милиции (нагрузка). В регионе выбирались 10 городов с примерно одинаковой нагрузкой на одного работника милиции (всего 40 городов).
Как видно из таблицы №2 при нагрузке Х = 30
уровень преступности в пяти городах равен 100, в четырех городах - Y = 110, в одном городе - Y = 120, т.е. одному значению Х соответствует несколько значений Y. С другой стороны, уровень преступности Y = 100 отмечен в 12 городах с различной нагрузкой: в пяти городах - Х = 30, в четырех городах - Х = 35, в трех городах - Х = 45, т.е. одному значению Y соответствует несколько значений X.
Тенденция проявляется лишь в среднем. Так, для Х = 30 среднее значение Yep = (100*5 + 110*4 + 120*1)/10 = 106. Поступая аналогичным образом, получим:
Y | ||||
Х |
X | ||||
Y |
Корреляционной связью называется такая статистическая зависимость, которая проявляется в виде тенденций для средних величин значений показателей, при этом каждому значению показателя, выбранного в качестве независимой переменной или факторного признака (X), соответствует множество значений другого показателя, выбранного в качестве зависимой переменной или результативного признака (Y), и наоборот.
Особенность корреляционных связей заключается в том, что они (в отличие от функциональных связей) являются неполными. Анализируя, например, зависимость между нагрузкой (факторным признаком) и раскрываемостью преступлений (результативным признаком), приходим к выводу, что на раскрываемость действуют и другие факторы, причем они оказывают влияние в разных направлениях (так, высокий уровень профессиональной подготовленности сотрудников милиции будет положительно воздействовать на результаты их работы, а слабая оснащенность техническими средствами, напротив, будет отрицательно влиять на результаты их деятельности).
Для изучения корреляционной связи разработаны специальные методы, и в частности корреляционный анализ.
Корреляционный анализ - комплексное использование в определенной последовательности совокупности различных статистических методов обработки информации, позволяющее при выполнении некоторых условий найти форму, направление и величину или тесноту взаимосвязей между признаками.
По форме корреляционные связи могут быть линейными и криволинейными. Для корректного применения корреляционного анализа требуется обоснование близости распределения значений факторного и результативного признаков к нормальному и формы связи к линейной. В противном случае необходимо использовать специальные приемы анализа или другие коэффициенты связи.
Следующим условием применимости корреляционного анализа является условие достаточности объема значений признаков и их однородности. Чем хуже выполняется это условие, тем более сложный математический аппарат надо привлекать для получения надежных и достоверных выводов.
По направлению (типу) корреляционные связи можно разделить на прямые (положительные) и обратные (отрицательные). При пря мой связи увеличение факторного признака ведет к увеличению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и уровнем преступности), а при обратной - увеличение факторного признака ведет к уменьшению результативного признака (например, связь между нагрузкой на одного сотрудника милиции и процентом раскрываемое™ преступлений).
Сила или теснота корреляционной связи характеризуется различными коэффициентами, измеряющими эту связь. Так, для метрических шкал используется линейный коэффициент корреляции (Пирсона) - г. Коэффициент корреляции - величина относительная, он выражается в долях единицы от -1 до +1.
Обычно считается, что г < 0,3 указывает на слабую связь, при 0,3 < г < 0,5 связь признается умеренной, при 0,5 < г < 0,7 корреляция является значительной, а при 0,7 < г < 0,9 - сильной и при г > 0,9 -очень сильной, близкой к функциональной связи.
Следует отметить, что коэффициент корреляции позволяет определить не только тесноту, но и направление связи (на это указывают знаки «+» или «-«).
Корреляционный анализ не заканчивается только подсчетом г. Необходимо проверить значимость коэффициента корреляции при заданном уровне. Если г > г кр. (критическое значение г кр. находят по специальным таблицам), то полученному результату можно доверять;
если г< г кр., то рассчитанному коэффициенту корреляции доверять
нельзя.
На уровень преступности влияет множество факторных признаков. К' ним относятся социально-экономические, географические и климатические, демографические и другие признаки, а также признаки, характеризующие силы и средства, степень организованности ОВД.
Пусть п - число этих признаков. Тогда Y = Y(Xl,X2,X3,...Xn).
Задача корреляционного анализа - выявить те факторные признаки, которые наиболее существенно влияют на результативный признак Y, а остальными можно пренебречь.
Пусть, например, после вычислений коэффициентов корреляции оказалось, что Y = Y(X9, X21, Х45). Тогда руководитель органа внутренних дел при разработке плана мероприятий должен в первуюочередь включать в него такие, которые влияют на перечисленные факторные признаки.
Для нас представляет интерес рассмотрение корреляционных зависимостей динамических рядов. Факторные и результативные признаки могут меняться во времени, т.е. представлять динамические ряды. Между ними также можно количественно измерить тесноту связи, используя коэффициенты корреляции. Однако, чтобы использовать методы корреляционного анализа, надо выполнить ряд условий.
Динамическим рядам свойственны колебания различных типов. Первый тип - сезонные, примерно одинаковые внутригодичные колебания. Второй тип - трендовые, или длительные, колебания, выраженные постоянным увеличением (уменьшением) средних уровней, как проявлением общей тенденции развития явления. Третий тип -эксцессы, нерегулярные колебания, вызванные такими факторами, как стихийные бедствия, неурожаи, военные действия и т.п. Четвертый тип - колебания циклические, повторяющиеся через длительные и не обязательно одинаковые промежутки времени. Эти колебания проявляются в результате изменения хозяйственной деятельности, скачка научно-технического прогресса и т.п.
Корреляцию динамических рядов можно применять только для однотипных динамических рядов, имеющих одинаковый тип колебаний. Это первое условие.
Вторым условием применимости корреляционного анализа является замена эмпирических данных (уровней) динамических рядов расчетными значениями. Для этого каждый эмпирический ряд надо выровнять теоретической кривой, наиболее близко описывающей динамический ряд. Только после замены эмпирических уровней на расчетные можно вычислять коэффициенты корреляции г.
При коррелировании рядов динамики надо обращать внимание на возможность изменений уровней одного ряда динамики на уровни другого со сдвигом во времени. Встречаются такие взаимосвязи между явлениями, когда изменения одного явления вызывают изменения другого не сразу, а через какой-то период времени (так, изменение структуры органа внутренних дел может сказаться на результативности работы с запаздыванием). В этом случае необходимо совместить динамические ряды, чтобы устранить сдвиг. Этот сдвиг называется лагом.
Для динамических рядов можно также установить, усиливается или ослабевает связь между рядами динамики во времени, т.е. увеличивается или уменьшается коэффициент корреляции между анализируемыми явлениями. Для ответа на этот вопрос иногда достаточно разделить каждый из сопоставляемых рядов динамики на два во времени и для каждой пары новых рядов вычислить коэффициенты корреляции.
Построение таблицы парных корреляций. Вычисление коэффициентов корреляции будем проводить на отдельном рабочем листе. Для получения коэффициентов корреляции выполняем следующую последовательность действий:
· вызываем «Мастера функций» и среди статистических функций активизируем функцию «Корреляция»;
· в строку «массив 1» вводим диапазон динамического ряда «Уровень преступности», являющегося результативным или зависимым признаком;
· в строку «массив 2» вводим данные факторного или независимого признака «Доля городского населения».
· нажимаем на клавишу «Закончить», чтобы получить коэффициент корреляции, показывающий степень влияния доли городского населения на уровень преступности.
В результате в ячейке В2 появляется г = 0,66 (см. табл. 3.8.11). Скопируем формулу коэффициента корреляции, находящуюся в ячейке В2, в диапазон ячеек ВЗ:В12.
Таблица № 3. Коэффициенты корреляции с лагом 0,1, 2
А | В | С | D | Е | F | G | Н | I | |
Корреляция уровня преступности | макс | лаг | |||||||
Доля городского населения | 0,66 | 0,72 | 0,71 | 0,66 | 0,72 | 0,71 | 0,72 | ||
Доля несовершеннолетних | 0,80 | 0,71 | 0,07 | 0,80 | 0,71 | 0,07 | 0,80 | ||
Доля ранее судимых (на 10 тыс.) | 0,96 | 0,71 | -0,28 | 0,96 | 0,71 | 0,28 | 0,96 | ||
Доля незанятых (на 100 тыс.) | 0,91 | 0,43 | -0,36 | 0,91 | 0,43 | 0,36 | 0,91 | ||
Доля наркоманов (на 100 тыс.) | 0,65 | 0,73 | 0,73 | 0,65 | 0,73 | 0,73 | 0,73 | ||
Доля иммигрантов (на 1 тыс.) | 0,32 | 0,67 | 0,89 | 0,32 | 0,67 | 0,89 | 0,89 | ||
Потребление алкоголя (на душу) | 0,91 | 0,51 | -0,38 | 0,91 | 0,51 | 0,38 | 0,91 | ||
Выпуск промышленной продукции | -0,22 | 0,13 | 0,54 | 0,22 | 0,13 | 0,54 | 0,54 | ||
Выпуск сельхозпродукции | -0,49 | -0,29 | 0,04 | 0,49 | 0,29 | 0,04 | 0,49 | ||
Плотность сотрудников ОВД (на 10 тыс.) | 0,12 | -0,33 | -0,64 | 0,12 | 0,33 | 0,64 | 0,64 | ||
Плотность сотрудников УР (на 10 тыс.) | 0,57 | -0,17 | -0,76 | 0,57 | 0,17 | 0,76 | 0,76 | ||
Результаты расчета представлены в табл. 3.8.11 в колонке В. Проведенные расчеты показывают, что наиболее сильное влияние на преступность оказывают три признака: доля ранее судимых (г4 = 0,96), доля незанятых (г5 = 0,91), потребление алкоголя (rg= 0,91). Поэтому руководитель органа внутренних дел должен в первую очередь обратить внимание на эти показатели в текущем году (девятом периоде).
Будем считать, что указанные три признака проявляют себя постоянно, без запаздывания. Поэтому эти три параметра наиболее активны в период с лагом 0.
Возникает вопрос, какие факторные признаки проявят себя в следующем году (десятом периоде), если для перечисленных признаков был разработан комплекс мероприятий с целью снижения их влияния на преступность. Чтобы определить, какие признаки проявят себя на следующий год с лагом 1, нужно сдвинуть слева направо динамический ряд «уровень преступности» на один год, но поскольку данных за десятый период нет, количество его членов станет равным восьми. Что касается факторных признаков, то они сдвигаются справа налево на один период, исключая текущий год. Таким образом, число их уровней также станет равным восьми.
Подсчитываем коэффициенты корреляции для лага 1. Результаты расчета представлены в столбце С. Как видно из таблицы, в следующем (десятом) периоде влияние указанных ранее трех признаков снизилось (очевидно, из-за активной работы органа внутренних дел), но усилилось влияние таких признаков, как доля наркоманов и доля городского населения.
Повторяем те же операции для лага 2. т.е. сдвигаем динамические ряды на два периода. На основе рассчитанных коэффициентов корреляции вычислим влияние факторных признаков в 11-м периоде. Как видно из табл. 3.8.11 (колонки D), наиболее существенно влияющими на преступность в 11-м периоде являются доля иммигрантов (г = 0,89), плотность сотрудников УР (г = -0,76), доля наркоманов (г = 0,73) и по-прежнему доля городского населения (г = 0,71).
Далее в столбцы Е, F, G вводим абсолютные значения коэффициентов корреляции (т.е. без знака «минус»). Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах В, С и D, математическую функцию ABS.
Находим теперь максимальное значение коэффициентов корреляции для каждого признака, в зависимости от лагов. Эту операцию выполняет «Мастер функций», применяя к формулам, стоящим в столбцах Е, F, G, статистическую функцию «Макс». Результаты расчета приведены в столбце Н табл. 3.8.11.
Теперь наша задача заключается в том, чтобы определить, какому лагу соответствует максимум, находящийся в ячейках столбца Н. В принципе это можно сделать визуально и ввести в колонку 1 значения лагов вручную. Однако это можно выполнить с помощью логической функции «ЕСЛИ». Снова заполнение столбца 1 выполнит «Мастер функций». В окончательном виде имеем таблица №3, которая позволяет провести анализ влияния факторных признаков на результативный признак в различные периоды времени.