Методы обработки, связанные со статистическими погрешностями

Проверка гипотезы нормальности распределения.

Рассмотрим два варианта проверки гипотезы нормальности закона распределения генеральной совокупности, из которых взята данная выборка. Наиболее простой вариант, состоящий в сопоставлении измеренного распределения с нормальным, основан на исследовании диаграммы накопленной частоты. Числовые пометки на оси ординат нанесены таким образом, что нормальному распределению соответствует прямая линия. Накопленную частоту измеренных значений наносят на диаграмму, изображенную на рисунке. После этого проводят прямую таким образом, чтобы отклонение от точек было бы минимальным. Суждение о том, насколько хорошо распределение соответствует нормальному, высказывается после рассмотрения следующих вопросов:

1) В какой мере точки удалены от прямой.

2) Насколько рассчитанное среднее значение выборки отклоняется от определенного с помощью прямой математического ожидания нормального распределения µ. Величина µ считывается с диаграмм при накопленной частоте 50 %.

Замечание: значение 100% накопленной частоты, которая достигается в выборке, на диаграмму не наносят. Это связано с тем, что нормальное распределение допускает бесконечно большое отклонение от ожидаемого значения. Нормальное распределение представляет собой лишь приближенную модель действительное распределение. Однако бесконечно большие отклонения не встречаются. Вероятность бесконечно больших отклонений мала, поэтому внимание надо уделять отклонениям, находящимся в области среднего значения. Поэтому не следует обращать внимание на отклонение накопленной прямой меньше 10% и больше 90%.

Диаграмма накопленной частоты для проверки нормальности распределения. Рассмотренная процедура дает только качественную,грубую оценку. Тем не менее, она пригодна для обнаружения отклонения от нормального распределения. Качественная оценка определяется с помощью хи-квадрат распределения.

1) Определяем из выборки оценки.

и

2) Разбиваем измеренные значения на K интервалов K>4,таким образом, чтобы в каждом интервале было >5 значений.

3) Определяют число измеренных значений в каждом интервале nsi.

4) Для нормального распределения с и, находим вероятность pi попадания измеренных значений в i-ый интервал. По этой вероятности определяют число измеренных значений noi, которые должны были попасть в этот интервал при нормальном распределении.

5) Вычисляется выражение

И используя рисунок решают, имеет место нормальное распределение или нет.

К-число интервалов, используемых при проверке.

Доверительные границы -распределения, используемых для проверки гипотезы о нормальности распределения при уровне значимости 5%. -число степеней свободы.

Если точка лежит вне заштрихованной области, то нет оснований сомневаться в том, что генеральная совокупность, откуда произведена выборка, имеет предположительно нормальное распределение. Однако это не означает, что речь идет о каждом случае нормального распределения. Можно только утверждать, что если нормальное распределение действительно имеет место, то выражение в среднем только в 5% всех случаев лежит в верхней и в 5% всех случаях- в нижней заштрихованных областей. Поэтому, если попадает в эти области, то гипотеза о нормальности распределения отвергается.

Грубые погрешности измерения

Если большое число измеренных значений привлекаем для дальнейшей обработки, то каждый раз возникает сомнение, не входят ли грубые ошибки. Ответ получают следующим образом:

1) Предполагают, что различие в ряде измерений обусловлены случайными погрешностями (нормальное распределение).

2) По измеренным значениям определяют характеристики распределения. Для нормального распределения такими характеристиками являются среднее значение и рассеяние S.

3) Выбирают доверительную вероятность 95%.

4) Для предполагаемого нормального распределения с и, можно по графикам определить доверительный интервал при выбранной доверительной вероятности. Это означает, что доверительный интервал +1,96, т.е. только в 2,5% всех случаев попадают значения x> +1,96 и в 2,5% случаев x< 1,96. Для измеренных значений, лежащих вне доверительного интервала, отвергаем гипотезу об их принадлежности к генеральной совокупности и считаем, что эти значения являются грубой погрешностью.

5) После исключения грубой погрешности рассчитывает исправленные оценки и S.

Линейная регрессия.

В измерительной технике очень часто определяют зависимость одной переменной y от другой переменной x, и с помощью линейной регрессии исследуют линейную зависимость значений.

На частном примере (х – независимая, у – зависимая переменная) рассмотрим линейную регрессию. Например: при проверке величина воспроизводимая мерой является независимой, а показания проверяемого прибора - зависимой. Не смотря на то, что мы стремимся получить линейную зависимость, измеренные значения y, как правило, не лежат на прямой. В данном случае, это происходит потому, что имеется случайная погрешность измерений.

При исследовании статистических процессов, это обусловлено также и тем, что взаимосвязь является не функциональной, а лишь статистической.

Возникает вопрос, как провести искомую прямую, называемую прямой регрессии, через точки измерений, нанесенные на (х; у) диаграмму, или как ее рассчитать.

Исходя из того, что для определенного значения независимого распределения х, величина у нормально распределена относительно математического ожидания, лежащего на прямой, и что это нормальное распределение не зависит от значения переменной х, то можно применить метод наименьших квадратов. При этом рассматриваются не расстояния точек измерения от прямой, а разность ординат точек измерения и прямой.

Прямую, соответствующую минимальной сумме квадратов погрешности, с наибольшей вероятностью можно рассматривать, как искомую прямую генеральной совокупности и рассчитывать по следующей формуле:

,,

y

x

Крутизна прямой (b), называется коэффициентом регрессии и рассчитывается следующим образом:

В результате получают оценку прямой, описывающую линейную зависимость.

Доверительные границы для коэффициента регрессии.

Процедура, определения доверительных границ, следующая:

1. Выбирают доверительную вероятность (р в процентах);

2. По графику распределения Стьюдента определяют с, как функцию c=f(p%; nf), где nf – число степеней свободы;

3. Вычисляют выражения:

;

Далее определяют доверительные границы для погрешности коэффициента регрессии:

; (*)

Математическое ожидание β с р(%) лежат в области (*).

На графике покажем доверительный интервал для коэффициента b линейной зависимости, определенный таким расчетом:

y

x


y

x

Если этот интервал включает β=0, то с выбранной доверительной вероятностью, нет основания утверждать, что действительный коэффициент регрессии (b) отличен от нуля. В этом случае считают, что линейная зависимость не установлена с достаточной достоверностью. Дополнительная недостоверность состоит в том, что среднее значение также представляет собой лишь оценку соответствующего математического ожидания. Поэтому «недостоверность» является положение прямой.

Линейная корреляция.

Если пары значений изучают с целью выявления линейной зависимости и при этом х и у не рассматривают как зависимые и независимые переменные, то в этом случае говорят о корреляции. Например, рост пар братьев и сестер – статистически бессмысленно рассматривать: рост одной – независимая, рост другой – зависимая переменная. Также постановка вопроса имеет место при сопоставлении давление, температура и др. в различных местах.

Изобразим положение переменных регрессии при различной степени линейной статистической связи пар значений (х; у).

А) у

х


Б) у

х

В)у

х

Если пару значений нанести на (х; у) диаграмму и искать прямую, которая изображает возможную линейную зависимость, то можно использовать метод наименьших квадратов. Правда теперь имеет смысл b1 и b2 (две прямые) так как каждая переменная в равной мере может быть рассмотрена, как зависимая и как независимая.

Если рассматривать функцию,, то коэффициент b1 выбирают так, чтобы сумма всех квадратов была бы минимальной, однако с теми же основаниями у может рассматриваться как свободная переменная, тогда коэффициент b2 функции выбирают так, чтобы минимальной была сумма всех квадратов.

В общем случае (а), прямые не совпадают, можно показать, что b1 и b2, тем сильнее стремятся к нулю, чем более независимы х и у. При полной статистической независимости, прямые перпендикулярны b1=b2=0 (б).

Если имеет место функциональная зависимость, то b1=1/b2 и обе прямые регрессии совпадают.

Коэффициенты регрессии, в зависимости от тесноты статистической связи изменяются между нулем и значением крутизны, соответствующей функциональной зависимости. Поэтому значения b1 и b2 в какой-то мере отражают тесноту линейной связи, но полностью охарактеризовать ее не могут, так как не зафиксирована верхняя граница b. Этого можно достичь, по средствам нормирования, следующим образом:

, где r – коэффициент корреляции.

r может принимать значения от минус 1 до плюс 1. При строгой функциональной связи лежат на прямой. При положительном коэффициенте угла наклона прямой r=+1, при отрицательном r=-1.

Если х и у полностью статистически независимы, то r=0. Модуль коэффициента r, является мерой линейной зависимости, чем ближе пара значений расположения к прямой, тем больше |r|→1.

Замечания:

1. Из рассмотренного вытекает: если две величины независимы друг от друга, то они не коррелированны и равны нулю. Если пары значений лежат на прямой, то r=1. Обратные утверждения в общем случае не верны.

Если r=0, то это означает что имеется отсутствие линейной зависимости, то х и у вообще не зависят друг от друга.

Если r=1, то из этого не следует, что зависимость х и у линейна, а следовательно только то, что эти величины зависят друг от друга.

2. r используется как мера линейной зависимости, то необходимо учитывать, что r зависит от объема выборки n. Очевидно, что при наличии только двух пар значений, величина r всегда равна 1. Однако, как можно видеть при определении доверительных границ при малых n, доверительный интервал увеличивается при использовании r в качестве статистической характеристики, только при двух пар значений недопустимо.

3. Если пары значений лежат вблизи прямой, то из этого что r принимает значения близкие к ±1, не следует что эта линейная зависимость отображает также причинно-следственную связь.

Весьма вероятно, что имеется корреляция между числом краж и числом автомобилей в стране, возможно, что такая мнимая, лишенная смысла корреляция происходит от того, что коррелирующие явления имеют общую причину, но так бывает далеко не всегда. Гипотеза, о наличии причинно-следственной связи должна быть обусловлена в каждом отдельном смысле. Корреляция показывает лишь, не противоречат ли полученные результаты гипотезе.

Коэффициент корреляции r рассчитан по исходному уравнению характеризует корреляцию выборки может быть использован в качестве оценки математического ожидания коэффициента корреляции генеральной совокупности. При этом возникает задача статистической достоверности этого коэффициента. При этом проверяют, является ли отличным r от нуля, статистически значимым.

Измерение как процесс передачи сигналов

Характерной чертой любого измерения является передача сигнала.

Сигнал – это физическая величина, несущая информацию. В процессе преобразования в измерительном устройстве параметры и вид сигнала часто изменяются, однако передаваемая им измеряемая величина должна претерпевать минимальные искажения.

Взаимосвязь двух и более сигналов устанавливается с помощью так называемых передаточных звеньев – речь идет не о приборных узлах, а о направленной функциональной связи между входным сигналом (причиной) и выходным сигналом (следствием). Эта связь характеризуется передаточными свойствами звеньев. Передаточные звенья и взаимодействующие сигналы изображаются с помощью блок-схем.

xe
UV1
UV2
UV3
x1
x2
xa

На рисунке передаточная характеристика между xe и xa характеризуется свойствами трех звеньев UV1, UV2, UV3


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: