Элементы статистического анализа одномерной выборки

Параметры эмпирического распределения и его модель, рассматриваемые в описательной статистике, являются предметом анализа и использования для решения прикладных задач экономики.

Оценка согласия статистической модели с эмпирическим распределением

Статистическая модель эмпирического распределения должна, как указывалось, прежде всего, отвечать сущности моделируемого явления. Академик Я.Б. Зельдович и профессор А.Д. Мышкис, в своем курсе прикладной математики по этому поводу остроумно заметили, что модель тем лучше, чем меньше в ней эмпирического и чем больше в нее вложено теоретического. Как говорил Эйнштейн: «Нет ничего практичнее хорошей теории».

Что касается формальной близости эмпирического и адекватного ему теоретического распределения (модели), то они не могут в точности совпадать в силу ограниченности выборки, порождающей случайные отклонения частот и параметров. Более того, очень малое расхождение между эмпирическим и теоретическим распределением указывает, как это не парадоксально, на их несогласие, поскольку по закону больших чисел эмпирические частоты сходятся к вероятностям только при неограниченном увеличении объема выборки. Ограниченная по объему выборка должна иметь с моделью расхождение, которое допускает альтернативную интерпретацию: несовпадения эмпирического и теоретического распределений носят случайный характер в рамках допустимых колебаний, не противоречат друг другу, и гипотезу о согласии с теоретической моделью можно принять; различие эмпирического и теоретического распределений не объясняется случайными колебаниями, статистически значимы, и гипотеза о согласии с теоретической моделью отвергается.

Правила, по которым устанавливается непротиворечие с теоретической моделью или она отвергается, называются критериями согласия. Обычно оценивается вероятность ошибки при отклонении гипотезы о согласии.

Критерийсогласия Пирсона

Критерий Пирсона состоит в подсчете суммы c² – суммы из нормированных по теоретическим частотам квадратов расхождений между эмпирическими и теоретическими частотами. Если эмпирические и теоретические частоты совпадают, c²=0. В других случаях c²>0 и тем больше, чем значительнее расхождения. Распределение c² получено Гельмертом еще в 1876 г. и детально разработано Пирсоном в 1900 г.

Вероятности c² зависят от суммы c² и степеней свободы, подсчитываемых как количество интервалов с рассматриваемыми частотами за вычетом количества используемых выборочных параметров модели и 1. Критерий корректен для суммы c² из не менее 5 слагаемых с 5 и более вариант в каждом.

Обычно оценивается максимально допустимая сумма c², но при очень малой величине возникает противоречие с законом больших чисел.

Математическое ожидание распределения c² равно числу степеней свободы, мода меньше его – на 2 единицы, медиана – меньше на 1, и именно такая сумма c² является наиболее достоверной для случайных расхождений между эмпирическими и адекватными им теоретическими частотами.

Отклонения в обе стороны от медианы (числа степеней свободы без 1) уменьшают вероятность и одинаково не желательны. Обычно вероятность превышения суммы c², при которой расхождения полагаются допустимым, принимается равной 5%, т.е. вероятность ошибки при отклонении гипотезы о согласии между эмпирическими и теоретическими частотами не превышает 5%.

l-критерий Колмогорова

Этот критерий в зарубежной литературе и программных средствах носит название Колмогорова-Смирнова, и заключается в оценке вероятности максимального расхождения между эмпирической и теоретической функциями распределения. Для оценки вероятностей используется предложенное А.Н. Колмогоровым и рассчитанное Н.В. Смирновым распределение l – параметра (произведения модуля максимального расхождения на корень из объема выборки). Т.е. значимость расхождения возрастает при увеличении объема выборки.

Критерий не зависит от типа распределения; в отличие от c², не накладывает условий на группирование данных и их число в интервалах, но не учитывает уменьшения степеней свободы при определении из выборки параметров эмпирического распределения. Поэтому l-критерий дает несколько завышенную вероятность ошибки отклонения гипотезы о согласии эмпирической и теоретической функций, особенно при небольших объемах выборок.

Критерий Шапиро-Уилка

Критерий разработан для проверки согласия с нормальным или логнормальным распределениями. В этом критерии используется квадрат суммы взвешенных (со специально рассчитанными коэффициентами) разностей между одинаково отстоящими от концов вариантами предварительно упорядоченной выборки. В итоге также дается вероятность ошибки при отклонении гипотезы о согласии между эмпирическими и теоретическими частотами.

Критерии на основе оценок асимметрии и эксцесса

По этим критериям проверяется согласие эмпирического распределения с нормальным законом, – оценивается вероятность отклонений выборочных асимметрии и эксцесса от нуля. Эта и есть вероятность ошибки при отклонении гипотезы о согласии эмпирического и нормального распределений.

Графический критерий

Критерий заключается в визуализации эмпирической функции распределения на графике, построенном в масштабе, линеаризующим интегральную функцию теоретической модели. При адекватности модели эмпирическим данным они близки к теоретическому графику (прямой линии), при несогласии – значимо (не случайно) отклоняются от него.

11 12 13 14 15 16 17

Подборка статей по вашей теме: