Оценка степени соответствия эмпирического распределения нормальному с использованием значений асимметрии и эксцесса

Важнейшим требованием к информации при использовании массовых данных является её качественная и количественная однородность.

Качественная однородность предполагает, что обследованию будут подвергаться наблюдения или объекты, схожие друг с другом. Использование разнородных объектов будет искажать характер связи между отдельными признаками.

Для большинства экономических показателей характерно распределение данных, близкое к нормальному. Нормальным распределением называется такое, которое получается из ряда наблюдений, вариация которых обусловлена воздействием большого числа мелких беспорядочных или случайных влияний.

`х-3sх
`х-sх
`х+3sх
`х+sх
Кривая нормального распределения представлена на рис. 4.1. Как видно из рисунка, наиболее часто встречаются значения признака, близкие к его среднему. По мере удаления от среднего значения число наблюдений или вероятность наступления события уменьшаются. Причем в интервал от ` х-sх до ` х+sх попадает 68,26% случаев; от ` х- 2 sх до ` х+ 2 sх – 95,46%; от ` х- 3 sх до ` х+ 3 sх – 99,73% случаев. В последний интервал попадает подавляющее большинство случаев при нормальном распределении.

Эти теоретические положения, характеризующие кривую нормального распределения.

Исходная информация, которая будет использована для построения эконометрических моделей, должна быть достоверной. Для проверки информации на достоверность необходимо рассчитать и оценить 2 показателя: ассиметрию(А) и эксцесс (Э). Эти показатели определяются по формулам:

Xi – фактическое значение показателя;

- среднее значение показателя;

n – количество опытов;

σx – среднеквадратическое отклонение, которое, в свою очередь, рассчитывается по формуле:

На примере информации о посещаемости студентами занятий и их успеваемости уточним методику расчета ассиметрии и эксцесса.

Таблица 1 – Посещаемость занятий студентами и их оценки на экзамене

Номер Пропуски Оценка Номер Пропуски Оценка
           
           
           
           
           
           
           
           
           
           
           
           
           

Таблица 3– Порядок расчета ассиметрии и эксцесса

Номер Xi (Xi (Xi 2 (Xi 3 (Xi 4
    -1,56 2,4336 -3,7964 5,9224
    1,44 2,0736 2,9860 4,2998
    0,44 0,1936 0,0852 0,0375
- - - - - -
    -2,56 6,5536 -16,7772 42,9497
Итого   Х 88,16 83,5008 808,6177
Среднее 2,56 Х 3,5264 3,34 32,34

Таким образом,

Если параметры А и Э равны нулю, то исходная информация в полной мере считается достоверной. Конечно, такой идеальный вариант при изучении экономических явлений и процессов встречается крайне редко. Чаще всего ассиметрия и эксцесс не равны нулю.

Если ассиметрия принимает положительное значение, то соответствующее поле вероятностей сдвигается вправо относительно графика нормального распределения (смотрите рисунок 1). Соответственно, отрицательный коэффициент ассиметрии свидетельствует о перемещении графика влево.

Конкретное значение эксцесса отражает перемещение графика распределения вероятностей по вертикали. В частности, если поле вероятностей островершинно, то Э> 0. В свою очередь, уменьшение коэффициента Э приводит к тому, что изучаемый график становится все более пологим.

В связи с этим встает вопрос о возможных границах отклонений коэффициентов А и Э от нулевых значений. Информацию можно считать достоверной и пригодной для дальнейшей обработки, если выполняются следующие два неравенства:


В приведенных формулах σА и σЭ представляют собой ошибки ассиметрии и эксцесса, соответственно, которые определяются по формулам:

Нетрудно заметить, что ошибки ассиметрии и эксцесса зависят только от числа опытов n. В нашем примере (n = 25) ошибка ассиметрии составляет:

Что касается ошибки эксцесса, то при n=25 она равна:

Так как ассиметрия по факторному признаку меньше трех ошибок (0,503 ≤ 3∙ 0,464), а эксцесс по модулю ниже пяти соответствующих ошибок (0,411 ≤5∙0,902), то информацию о пропусках занятий следует считать достоверной.

Легко проверить, что ассиметрия и эксцесс по результативному показателю также находятся в допустимых пределах (Ау = -0,055; Эу = -0,764).

На этапе проверки информации на достоверность рекомендуется удалить ту информацию, которая резко выделяется из изучаемой совокупности. Речь идет о слишком высоких или очень низких значениях показателей. Выход коэффициентов ассиметрии и эксцесса за допустимые границы сигнализирует о том, что такие значения имеют место. Выделить эти ”нестандартные” значения позволяет правило трех сигм: |Xi - | ≤3∙σx. Соответственно, для результативного показателя данное правило может быть записано в виде: |Yi - | ≤3∙σy.

Рассмотрим пропуски занятий и применим правило трех сигм в отношении первых двух студентов:

|X1 - | = |-1,56 | ≤ 3∙1,88

|X2 - | = |1,44 | ≤ 3∙1,88.

Расчеты показывают, что и по всем остальным студентам правило трех сигм соблюдается (в отношении факторного показателя).

Что касается оценок, т.е. результативного показателя, то и в этом случае модуль отклонения фактических значений от средней оценки не превышает трех сигм (. Проверим это утверждение на примере оценок, полученными седьмым и восьмым студентами:

|Y7 - | = |1 – 5,84 | ≤ 3∙2,395

|Y8 - | = |10 – 5,84 | ≤ 3∙2,395.

Вы заметили, что нами были взяты минимальная и максимальная оценки студентов. Если при этих значениях правило трех сигм соблюдается, то остальные значения можно не проверять.

Таким образом, исходная информация по всем студентам группы является достоверной. Это подтверждают коэффициенты ассиметрии, эксцесса, а также правило трех сигм. Мы рекомендуем использовать правило трех сигм в любом случае, даже если ассиметрия или эксцесс не выходят за допустимые границы. Это связано стем, что в некоторых случаях нарушения ассиметрии и эксцесса являются допустимыми, а правило трех сигм все равно не соблюдается.

Если какое-нибудь значение не удовлетворяет правилу трех сигм, то оно (значение) подлежит удалению. Одновременно следует удалить всю строку (опыт, объект, предприятие и т.д.), которой это значение принадлежит. Однако следует помнить, что удаляемая информация содержит, как правило, оригинальные и интересные факты. Именно поэтому, те объекты, которые мы должны удалить из изучаемой совокупности, требуется подвергнуть детальному монографическому анализу.

После удаления ”лишних” опытов целесообразно рассчитать новые значения ассиметрии и эксцесса, а после этого убедиться в достоверности оставшейся части информации.

Задание 1. Используя данные нижеприведенной таблицы проверить все столбцы информации на достоверность

Таблица 1. – Информация для изучения объема продаж

Номер наблюдения Объем продаж, ед. Цена реализации, ден. ед. Затраты по стимулированию сбыта, ден. ед. Количество торговых агентов, чел.
    21,1    
    19,5    
    22,3    
    22,9    
    22,7    
    26,5    
    23,4    
    26,4    
    25,8    
    25,1    
    27,4    
    26,5    
    28,6    
    29,0    
    27,9    
    28,5    
    29,1    
    32,1    
    27,7    
    30,2    
    33,1    
    33,2    
    29,9    
    31,1    
    30,6    
    35,2    
    35,9    
    27,0    
    23,7    
    28,6    
    30,2    


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: