Соответствие нормальному распределению, критерий согласия

Данный раздел скомпилирован по материалам учебного пособия [2].

Большинство методов статистического анализа основано на соответствии выборочных данных нормальному распределению.

Существует несколько тестов (критериев согласия), которые позволяют проверить гипотезу о нормальности распределения. К ним относятся критерии χ2 – кси квадрат, λ – критерий лямбда (Колмогорова-Смирнова), критерии асимметрии и эксцесса. Одной из главных особенностей этих методов является требование достаточно больших объёмов (сотни или тысячи) анализируемых данных для получения надежных выводов. При небольшом объеме выборки эти методы способны отвергнуть гипотезу о нормальности распределения только при грубом отклонении от нормального распределения.

Для проверки гипотезы о нормальности распределения необходимо выбрать в главном меню команду: Describle\Distribution Fitting\Uncensored Data и в появившемся стандартном окне диалога выбрать анализируемые данные.

В STATGRAPHICS реализованы как специальные критерии согласия, предназначенные для проверки именно нормальности распределения – критерии нормальности, так и общие критерии согласия, применимые к гипотезе о согласии выборочных данных с любым априорно предложенным распределением вероятностей. Теоретическое распределение можно задать в окне при выборе пункта Analysis Options (рисунок 28). По умолчанию задано нормальное распределение (рисунок 28).

 

 

Рисунок 28– Диалоговое окно выбора типа распределения

 

Для вычисления критериев согласия необходимо использовать пиктограмму табличных опций – «Tabular Options», а в появившемся диалоговом окне выбрать команды Test for normality и Goodness of Fit Test (рисунок 29).

В окне результата будут приведены значения критериев нормальности: классический критерий χ2, критерий Шапиро-Уилка, критерий асимметрии и эксцесса, критерий Колмогорова-Смирнова и их достигаемые уровни значимости (p-value).

Уровень значимости – это допустимая для данной задачи вероятность ошибки 1-го рода при проверке гипотезы по статистическому критерию, т.е. вероятность отклонить нулевую гипотезу (отвергнуть гипотезу о нормальности распределения), когда на самом деле она верна. Стандартные значения уровня значимости: 0,005; 0,01; 0,05; 0,1.

 

 

Рисунок 29 – Окно выбора критериев различия

 

Достигаемый уровень значимости (p-value) – это значение функции распределения для его необходимого значения.

Достигаемый уровень значимости (p-value) сравнивается с заданным уровнем значимости, который установлен исследователем. Если p-value ниже заданного уровня значимости, то гипотеза о существенности различия отвергается. Если выше, то принимается.

Например, если окажется, что достигаемый уровень значимости одного из статистических критериев (χ2, критерий Шапиро-Уилка и др.) меньше заданного уровня значимости 0,01, то это означает, что гипотеза о нормальном распределении отвергается с доверительной вероятностью 99 % (рисунок 30).

 

 

Рисунок 30 – Окно анализа степени различия признаков

 

Одним из необходимых условий применения параметрических методов является нормальное распределение. Если исходные данные не подчиняются закону нормального распределения, их можно трансформировать таким образом, чтобы распределение приблизилось к нормальному.

При правосторонней асимметрии («хвост» вправо) чаще всего применяют следующие виды «нормализующей трансформации»: извлечение квадратного корня , логарифмическое преобразование Ln(x) или Log10(x), гармоническое преобразование -1/х (знак «минус» используется для сохранения направленности отношение; в противном случае наименьшие и наибольшие значения поменяются местами, что может затруднить интерполяцию результатов). Если переменная может принимать нулевое значение, то для проведения логарифмического или гармонического преобразования следует добавлять и переменной некоторое малое число, например 0,001.

При левосторонней асимметрии имеет смысл преобразовывать данные путем их возведения в степень. Выбор наиболее подходящего вида трансформации для имеющихся данных определяется методом проб и ошибок, а об успешности преобразования смотрят по графикам, коэффициентам асимметрии и эксцесса и результатам проверки распределения с помощью статистических критериев в STATGRAPHICS. Подбор подходящего вида трансформации на основе степенного преобразования (Box-Cox Transformation) выполняется с помощью меню: Describle\Numeric Data\Power Transformation (рисунок 31).

 


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: