Интервальная оценка параметров распределения

Сущность задачи интервального оценивания параметров

Интервальный метод оценивания параметров распределения случайных величин заключается в определении интервала (а не единичного значения), в котором с заданной степенью достоверности будет заключено значение оцениваемого параметра. Интервальная оценка характеризуется двумя числами – концами интервала, внутри которого предположительно находится истинное значение параметра. Иначе говоря, вместо отдельной точки для оцениваемого параметра можно установить интервал значений, одна из точек которого является своего рода "лучшей" оценкой. Интервальные оценки являются более полными и надежными по сравнению с точечными, они применяются как для больших, так и для малых выборок. Совокупность методов определения промежутка, в котором лежит значение параметра Т, получила название методов интервального оценивания. К их числу принадлежит метод Неймана.

Постановка задачи интервальной оценки параметров заключается в следующем:

Имеется: выборка наблюдений (x1, x2, …, xn) за случайной величиной Х. Объем выборки n фиксирован.

Необходимо с доверительной вероятностью g = 1– a определить интервал t0 – t1 (t0 < t1), который накрывает истинное значение неизвестного скалярного параметра Т (здесь, как и ранее, величина Т является постоянной, поэтому некорректно говорить, что значение Т попадает в заданный интервал).

Ограничения: выборка представительная, ее объем достаточен для оценки границ интервала.

Эта задача решается путем построения доверительного утверждения, которое состоит в том, что интервал от t0 до t1 накрывает истинное значение параметра Т с доверительной вероятностью не менее g. Величины t0 и t1 называются нижней и верхней доверительными границами (НДГ и ВДГ соответственно). Доверительные границы интервала выбирают так, чтобы выполнялось условие P(t0 Ј q Ј t1) = g. В инженерных задачах доверительную вероятность g назначают в пределах от 0,95 до 0,99. В доверительном утверждении считается, что статистики t0 и t1 являются случайными величинами и изменяются от выборки к выборке. Это означает, что доверительные границы определяются неоднозначно, существует бесконечное количество вариантов их установления.

На практике применяют два варианта задания доверительных границ:

- устанавливают симметрично относительно оценки параметра, т.е. t0 = q – Еg, t1 = q + Еg, где Еg выбирают так, чтобы выполнялось доверительное утверждение. Следовательно, величина абсолютной погрешности оценивания Еg равна половине доверительного интервала;

- устанавливают из условия равенства вероятностей выхода за верхнюю и нижнюю границу Р(Т > q + Е1,g)=Р(Т < q – Е2,g)=a /2. В общем случае величина Е1,g не равна Е2,g. Для симметричных распределений случайного параметра q в целях минимизации величины интервала значения Е1,g и Е2,g выбирают одинаковыми, следовательно, в таких случаях оба варианта эквивалентны.

Нахождение доверительных интервалов требует знания вида и параметров закона распределения случайной величины q. Для ряда практически важных случаев этот закон можно определить из теоретических соображений.

Общий метод построения доверительных интервалов

Метод позволяет по имеющейся случайной выборке построить функцию и(Т, q), распределенную асимптотически нормально с нулевым математическим ожиданием и единичной дисперсией. В основе метода лежат следующие положения. Пусть:

f(х, q) – плотность распределения случайной величины Х;

ln [L(x, q)] – логарифм функции правдоподобия;

;

А2 =М(у)2 – дисперсия у.

Если математическое ожидание М(у) = 0 и дисперсия у конечна, то распределение случайной величины w = асимптотически нормально с параметрами 0 и 1 при п ®Ґ.

Доверительный интервал для математического ожидания

Пусть по выборке достаточно большого объема, n > 30, и при заданной доверительной вероятности 1– a необходимо определить доверительный интервал для математического ожидания m1, в качестве оценки которого используется среднее арифметическое .

Закон распределения оценки математического ожидания близок к нормальному (распределение суммы независимых случайных величин с конечной дисперсией асимптотически нормально). Если потребовать абсолютную надежность оценки математического ожидания, то границы доверительного интервала будут бесконечными [– Ґ, Ґ ]. Выбор любых более узких границ связан с риском ошибки, вероятность которой определяется уровнем значимости a. Интерес представляет максимальная точность оценки, т.е. наименьшее значение интервала. Для симметричных функций минимальный интервал тоже будет симметричным относительно оценки m ₁. В этом случае выражение для доверительной вероятности имеет вид P(| m ₁ – m₁ | Ј Е) = 1– a, где Е – абсолютная погрешность оценивания.

Нормальный закон полностью определяется двумя параметрами – математическим ожиданием и дисперсией. Величина m ₁ является несмещенной, состоятельной и эффективной оценкой математического ожидания, поэтому ее значение принимаем за значение математического ожидания. Определим оценку дисперсии случайного параметра m ₁, учитывая, что этот параметр равен среднему арифметическому одинаково распределенных случайных величин xi (следовательно, их дисперсии D(xi) одинаковы и равны m ₂)

Итак, случайная величина m ₁ распределена по нормальному закону с параметрами m ₁ и m ₂ / n. Для установления необходимых соотношений целесообразно перейти к центрированным и нормированным величинам. Выражение m ₁ – m₁ можно трактовать как центрирование случайной величины m ₁. Нормирование осуществляется делением на величину среднеквадратического отклонения оценки m ₁

Для стандартизованной величины вероятность соблюдения неравенства определяется по функции нормального распределения

= Ф(b) – Ф(–b) = –1+ 2Ф(b)=1– a,

где . Значение b равно квантили u1– a /2 стандартного нормального распределения уровня 1– a /2. В частности, уровням надежности 0,9, 0,95 и 0,99 соответствуют значения допустимого отклонения u₁– a /2 величины z, равные 1,64, 1,96 и 2,58 соответственно. Окончательно можно записать

u ²_{1– a}/2 = nЕ²/m ₂.

Нетрудно заметить, что это выражение аналогично по своему содержанию формуле, полученной с использованием общего метода построения доверительного интервала.

При фиксированном объеме выборки из (4.3) следует, что чем больше доверительная вероятность 1– a, тем шире границы доверительного интервала (тем больше ошибка в оценке математического ожидания). Это равенство позволяет определить необходимый объем выборки для получения оценки математического ожидания с заданной надежностью и требуемой точностью (погрешностью): n=m₂ u²_{1– a}/2/Е ². Если перейти к относительной погрешности e = Е/m ₁, то

n = m ₂ u²_{1– a} /2 /(e ^2m 1²).

Таким образом, чтобы снизить относительную погрешность на порядок, необходимо увеличить объем выборки на два порядка. Приведенная формула часто используется в статистическом моделировании для определения необходимого количества испытаний модели.

Во многих случаях предположение о нормальном распределении случайной величины m ₁ становится приемлемым при n > 4 и вполне хорошо оправдывается при n >10. Оценка m ₁ вполне пригодна для применения вместо m₁. Но не так обстоит дело с дисперсией, правомочность ее замены на m₂ не обоснована даже в указанных случаях. При небольшом объеме выборки, n < 30, закон распределения оценки дисперсии m₂ принимать за нормальный неоправданно. Ее распределение следует аппроксимировать распределением хи-квадрат как суммы квадратов центрированных величин (хи-квадрат распределение сходится к нормальному при количестве слагаемых, превышающем 30). Но это утверждение обосновано только для случая, когда случайная величина Х распределена нормально.

С учетом сделанных допущений величина z будет подчиняться закону распределения Стьюдента с n–1 степенями свободы (одна степень свободы использована для определения оценки дисперсии). Распределение Стьюдента симметричное, поэтому полученное соотношение между точностью, надежностью оценки и объемом выборки сохраняется, меняются только значения квантилей. Вместо квантили нормального распределения u_{1– a} /2 следует взять квантиль t_{1– a} /2^(n–1) распределения Стьюдента с (n–1) степенями свободы.

Доверительный интервал для дисперсии

По выборке достаточно большого объема (n>30) и при заданной надежности 1– a необходимо определить доверительный интервал для дисперсии m₂, оценка которой .

Если стандартизовать оценку дисперсии, то величина (n–1)s²/m₂ имеет распределение хи-квадрат с (n–1) степенями свободы. Из этого вытекает вероятностное утверждение относительно выборочной дисперсии

P[(n–1)s² /m₂ >c ^2a (n–1)] = a.

Функция хи-квадрат несимметричная, поэтому границы интервала

c ²₁(n–1) и c²₂(n–1) выбирают из условия равной вероятности выхода за их пределы P[(n–1)s²/m₂ <c²₁(n–1)] = P[(n–1)s²/m₂ >c²₂(n–1)] = a /2 или

P[(n–1)s²/c²₁(n–1) < m₂] = P[(n–1)s²/c²₂(n–1) > m₂] = a /2.

Значения границ соответствуют квантилям распределения хи-квадрат уровня a /2 и 1– a /2 с количеством степеней свободы n–1. Нижняя граница

c²₁(n–1) равна квантили c^2a /2(n–1), а верхняя – квантили c²_1–a /2(n–1). Если воспользоваться критическими точками распределения, то следует записать

c²₁(n–1) = c²(1– a /2; n–1) и c²₂(n–1) = c²(a /2; n–1).

Доверительный интервал для вероятности

Пусть случайная величина Х имеет только два возможных значения: 0 и 1. В результате проведения достаточно большого количества наблюдений эта случайная величина приняла единичное значение т раз. Необходимо при заданной надежности 1– a определить доверительный интервал для вероятности р, оценка которой соответствует частоте h = m/n.

Оценка h вероятности р является состоятельной, эффективной и несмещенной. Если оцениваемая вероятность не слишком мала и не слишком велика (0,05< p <0,95), то можно считать, что распределение случайной величины h близко к нормальному. Этим допущением можно пользоваться, если nр и n(1–р) больше четырех. Параметры нормального распределения частоты m₁ = р, n₂ = р(1–р)/n (дисперсия m₂ (m) количества успехов m составляет величину nр(1–р), а дисперсия частоты m₂(m)/n₂). Тогда по аналогии с определением доверительного интервала для математического ожидания нормально распределенной величины h можно записать

Е = |h– p| = u _{1– a /2}(m₂(m))^0,5 = _{u1– a /2}(р(1–р)/n)^0,5,

где u _{1– a /2} – квантиль стандартизованного нормального распределения.

Чтобы связать доверительный интервал с исходными параметрами n, h и _{u1– a /2}, возведем выражение для Е в квадрат, т. е. преобразуем равенство к виду (h–p)²=u²_{1– a /2}(1–p)p/n. Доверительные границы можно получить, решив это уравнение второй степени

p 2, 1 ={nh + 0,5u²_{1– a /2}±

± u_{1– a /2}[nh(1–h) + 0,25u²_{1– a /2}]^0,5}/(п + u²_{1– a /2}).

С увеличением объема выборки (nh >200, nh(1–h)>200) такими слагаемыми как u²_{1– a /2}, 0,5u²_{1– a /2} и 0,25u²_{1– a /2} можно пренебречь, тогда приближенно

p₁ =h– u_{1– a /2} [h(1–h)/n]^0,5,

p₂ =h + u_1–_a_/2 [h(1–h)/n]^0,5.

Более общие результаты получены с учетом того, что случайная величина h распределена по биномиальному закону

Где – число сочетаний из n по k.

Исходя из этого положения, для практического применения получены значения нижней р₁ и верхней р₂ доверительных границ

;

Где – квантиль распределения хи-квадрат уровня x с числом степеней свободы k.

Эти формулы можно применять и в тех случаях, когда частость h события близка (равна) нулю или близка (равна) количеству экспериментов n соответственно. В первом случае НДГ р₁ принимается равной нулю и рассчитывается только ВДГ р₂. Во втором случае рассчитывается НДГ р₁, а верхняя граница р₂ =1.

12 13 14 15 16 17 18

Подборка статей по вашей теме: