Статистическое оценивание параметров распределения

Лекция 15

ЦЕЛЬ ЛЕКЦИИ: ввести понятие оценки неизвестного параметра распределения и дать классификацию таких оценок; получить точечные и интервальные оценки математического ожидания и дисперсии.

На практике в большинстве случаев закон распределения случайной величины неизвестен, и по результатам наблюдений необходимо оценить числовые характеристики (например, математическое ожидание, дисперсию или другие моменты) или неизвестный параметр, который определяет закон распределения (плотность распределения) изучаемой случайной величины. Так, для показательного распределения или распределения Пуассона достаточно оценить один параметр, а для нормального распределения подлежат оценке уже два параметра – математическое ожидание и дисперсия.

Виды оценок

Случайная величина имеет плотность вероятности, где – неизвестный параметр распределения. В результате эксперимента получены значения этой случайной величины:. Произвести оценку по существу означает, что выборочным значениям случайной величины необходимо поставить в соответствие некоторое значение параметра, т. е. создать некоторую функцию результатов наблюдений, значение которой принимается за оценку параметра. Индекс указывает на количество проведенных опытов.

Любая функция, зависящая от результатов наблюдений, называется статистикой. Так как результаты наблюдений являются случайными величинами, то и статистика тоже будет случайной величиной. Следовательно, оценку неизвестного параметра следует рассматривать как случайную величину, а ее значение, вычисленное по экспериментальным данным объемом, – как одно из возможных значений этой случайной величины.

Оценки параметров распределений (числовых характеристик случайной величины) подразделяются на точечные и интервальные. Точечная оценка параметра определяется одним числом, и ее точность характеризуется дисперсией оценки. Интервальной оценкой называют оценку, которая определяется двумя числами, и – концами интервала, накрывающего оцениваемый параметр с заданной доверительной вероятностью.

Классификация точечных оценок

Чтобы точечная оценка неизвестного параметра была наилучшей с точки зрения точности, необходимо, чтобы она была состоятельной, несмещенной и эффективной.

Состоятельной называется оценка параметра, если она сходится по вероятности к оцениваемому параметру, т. е.

. (8.8)

На основании неравенства Чебышева можно показать, что достаточным условием выполнения соотношения (8.8) является равенство

Состоятельность является асимптотической характеристикой оценки при.

Несмещенной называется оценка (оценка без систематической ошибки), математическое ожидание которой равно оцениваемому параметру, т. е.

. (8.9)

Если равенство (8.9) не выполняется, то оценка называется смещенной. Разность называется смещением или систематической ошибкой оценки. Если же равенство (8.9) выполняется лишь при, то соответствующая оценка называется асимптотически несмещенной.

Необходимо отметить, что если состоятельность – практически обязательное условие всех используемых на практике оценок (несостоятельные оценки используются крайне редко), то свойство несмещенности является лишь желательным. Многие часто применяемые оценки свойством несмещенности не обладают.

В общем случае точность оценки некоторого параметра, полученная на основании опытных данных, характеризуется средним квадратом ошибки

который можно привести к виду

где – дисперсия, – квадрат смещения оценки.

Если оценка несмещенная, то

При конечных оценки могут различаться средним квадратом ошибки. Естественно, что, чем меньше эта ошибка, тем теснее группируются значения оценки около оцениваемого параметра. Поэтому всегда желательно, чтобы ошибка оценки была по возможности наименьшей, т. е. выполнялось условие

. (8.10)

Оценку, удовлетворяющую условию (8.10), называют оценкой с минимальным квадратом ошибки.

Эффективной называется оценка, для которой средний квадрат ошибки не больше среднего квадрата ошибки любой другой оценки, т. е.

где – любая другая оценка параметра.

Известно, что дисперсия любой несмещенной оценки одного параметра удовлетворяет неравенству Крамера – Рао

где – условная плотность распределения вероятностей полученных значений случайной величины при истинном значении параметра.

Таким образом, несмещенная оценка, для которой неравенство Крамера – Рао обращается в равенство, будет эффективной, т. е. такая оценка имеет минимальную дисперсию.

Точечные оценки математического ожидания
и дисперсии

Если рассматривается случайная величина, имеющая математическое ожидание и дисперсию, то оба эти параметра считаются неизвестными. Поэтому над случайной величиной производится независимых опытов, которые дают результаты:. Необходимо найти состоятельные и несмещенные оценки неизвестных параметров и.

В качестве оценок и обычно выбираются соответственно статистическое (выборочное) среднее значение и статистическая (выборочная) дисперсия:

; (8.11)

. (8.12)

Оценка математического ожидания (8.11) является состоятельной согласно закону больших чисел (теорема Чебышева):

Математическое ожидание случайной величины

Следовательно, оценка является несмещенной.

Дисперсия оценки математического ожидания:

Если случайная величина распределена по нормальному закону, то оценка является также и эффективной.

Математическое ожидание оценки дисперсии

В то же время

Так как, а, то получаем

. (8.13)

Таким образом, – смещенная оценка, хотя является состоятельной и эффективной.

Из формулы (8.13) следует, что для получения несмещенной оценки следует видоизменить выборочную дисперсию (8.12) следующим образом:

, (8.14)

которая считается "лучшей" по сравнению с оценкой (8.12), хотя при больших эти оценки практически равны друг другу.

Методы получения оценок параметров
распределения

Часто на практике на основании анализа физического механизма, порождающего случайную величину, можно сделать вывод о законе распределения этой случайной величины. Однако параметры этого распределения неизвестны, и их необходимо оценить по результатам эксперимента, обычно представленных в виде конечной выборки. Для решения такой задачи чаще всего применяются два метода: метод моментов и метод максимального правдоподобия.

Метод моментов. Метод состоит в приравнивании теоретических моментов соответствующим эмпирическим моментам того же порядка.

Эмпирические начальные моменты -го порядка определяются формулами:

а соответствующие им теоретические начальные моменты -го порядка – формулами:

для дискретных случайных величин,

для непрерывных случайных величин,

где – оцениваемый параметр распределения.

Для получения оценок параметров распределения, содержащего два неизвестных параметра и, составляется система из двух уравнений

где и – теоретический и эмпирический центральные моменты второго порядка.

Решением системы уравнений являются оценки и неизвестных параметров распределения и.

Приравняв теоретический эмпирический начальные моменты первого порядка, получаем, что оценкой математического ожидания случайной величины, имеющей произвольное распределение, будет выборочное среднее, т. е.. Затем, приравняв теоретический и эмпирический центральные моменты второго порядка, получим, что оценка дисперсии случайной величины, имеющей произвольное распределение, определяется формулой

Подобным образом можно найти оценки теоретических моментов любого порядка.

Метод моментов отличается простотой и не требует сложных вычислений, но полученные этим методом оценки часто являются неэффективными.

Метод максимального правдоподобия. Метод максимального правдоподобия точечной оценки неизвестных параметров распределения сводится к отысканию максимума функции одного или нескольких оцениваемых параметров.

Пусть – непрерывная случайная величина, которая в результате испытаний приняла значения. Для получения оценки неизвестного параметра необходимо найти такое значение, при котором вероятность реализации полученной выборки была бы максимальной. Так как представляют собой взаимно независимые величины с одинаковой плотностью вероятности, то функцией правдоподобия называют функцию аргумента:

Оценкой максимального правдоподобия параметра называется такое значение, при котором функция правдоподобия достигает максимума, т. е. является решением уравнения

которое явно зависит от результатов испытаний.

Поскольку функции и достигают максимума при одних и тех же значениях, то часто для упрощения расчетов используют логарифмическую функцию правдоподобия и ищут корень соответствующего уравнения

которое называется уравнением правдоподобия.

Если необходимо оценить несколько параметров распределения, то функция правдоподобия будет зависеть от этих параметров. Для нахождения оценок параметров распределения необходимо решить систему уравнений правдоподобия

Метод максимального правдоподобия дает состоятельные и асимптотически эффективные оценки. Однако получаемые методом максимального правдоподобия оценки бывают смещенными, и, кроме того, для нахождения оценок часто приходится решать достаточно сложные системы уравнений.

Интервальные оценки параметров

Точность точечных оценок характеризуется их дисперсией. При этом отсутствуют сведения о том, насколько близки полученные оценки истинным значениям параметров. В ряде задач требуется не только найти для параметра подходящее численное значение, но и оценить его точность и надежность. Необходимо узнать, к каким ошибкам может привести замена параметра его точечной оценкой и с какой степенью уверенности следует ожидать, что эти ошибки не выйдут за известные пределы.

Такие задачи особенно актуальны при малом числе опытов, когда точечная оценка в значительной степени случайна и приближенная замена на может привести к значительным ошибкам.

Более полный и надежный способ оценивания параметров распределений заключается в определении не единственного точечного значения, а интервала, который с заданной вероятностью накрывает истинное значение оцениваемого параметра.

Пусть по результатам опытов получена несмещенная оценка параметра. Необходимо оценить возможную ошибку. Выбирается некоторая достаточно большая вероятность (например), такая, что событие с этой вероятностью можно считать практически достоверным событием, и находится такое значение, для которого

. (8.15)

В этом случае диапазон практически возможных значений ошибки, возникающей при замене на, будет, а большие по абсолютной величине ошибки будут появляться лишь с малой вероятностью.

Выражение (8.15) означает, что с вероятностью неизвестное значение параметра попадет в интервал

. (8.16)

Вероятность называется доверительной вероятностью, а интервал, накрывающий с вероятностью истинное значение параметра, называется доверительным интервалом. Заметим, что неправильно говорить, что значение параметра лежит внутри доверительного интервала с вероятностью. Используемая формулировка (накрывает) означает, что хотя оцениваемый параметр и неизвестен, но он имеет постоянное значение и, следовательно, не имеет разброса, поскольку это не случайная величина.

Задача определения доверительного интервала может быть решена только тогда, когда удается найти закон распределения случайной величины. В общем случае этот закон зависит от закона распределения случайной величины и, следовательно, и от его неизвестных параметров (в частности, и от самого оцениваемого параметра). Однако иногда удается перейти при получении оценки к таким функциям опытных данных, закон распределения которых зависит только от величины и закона распределения случайной величины и не зависит от неизвестных параметров.

Пусть проведено независимых испытаний над случайной величиной, числовые характеристики которой – математическое ожидание и дисперсия – неизвестны. Для этих параметров получены точечные оценки:

;. (8.17)

Требуется найти доверительный интервал, соответствующий доверительной вероятности, для математического ожидания случайной величины.

Так как случайная величина представляет собой сумму независимых и одинаково распределенных случайных величин, то согласно центральной предельной теореме при достаточно больших (на практике порядка 10¸20) ее закон распределения близок к нормальному. Таким образом получаем, что случайная величина распределена по нормальному закону с математическим ожиданием и дисперсией (см. (7.3–7.4)). Если величина дисперсии неизвестна, то в качестве ее оценки можно использовать. В этом случае найдем такое, для которого

При использовании формулы (4.37) получаем

где – среднее квадратичное отклонение оценки.

Из уравнения

находим значение:

, (8.18)

где – функция, обратная, – квантиль порядка стандартного нормального распределения.

Таким образом, приближенно решена задача построения доверительного интервала в виде

где определяется формулой (8.18).

Чтобы избежать при вычислении обратного интерполирования в таблицах функции, обычно составляется небольшая таблица, в которой приводятся значения квантилей в зависимости от наиболее часто используемых значений доверительной вероятности (табл. 8.4).

Таблица 8.4

0,9	1,643
0,95	1,960
0,99	2,576
0,9973	3,000
0,999	3,290

Величина определяет для нормального закона распределения число средних квадратичных отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания на этот участок была равна.

С использованием величины доверительный интервал будет иметь вид

Интервальные оценки математического ожидания
и дисперсии нормальных случайных величин

Для случайной величины, имеющей гауссово распределение, найдены точные методы построения доверительных интервалов оценок математического ожидания и дисперсии.

Если случайная величина распределена нормально с математическим ожиданием и дисперсией, то случайная величина

(8.19)

имеет распределение с степенями свободы, а случайная величина

(8.20)

подчиняется закону распределения Стьюдента с степенями свободы.

В формулах (8.19–8.20) и – точечные оценки математического ожидания и дисперсии в соответствии с (8.17).

Для обоих неизвестных параметров и необходимо построить доверительные интервалы.

Для математического ожидания величину (половину длины доверительного интервала) выбираем из условия

. (8.21)

В левой части выражения (8.21) перейдем от случайной величины к величине, распределенной по закону Стьюдента. Для этого умножим обе части неравенства на положительную величину и получим

а при использовании (8.20)

где величину находим из условия

или.

По таблице процентных точек распределения Стьюдента (прил. 4) находим значение и получаем

и соответственно доверительный интервал оценки математического ожидания будет иметь вид

. (8.22)

Для нахождения доверительного интервала оценки дисперсии выразим случайную величину через величину в соответствии с (8.19):

Знание закона распределения случайной величины позволяет найти доверительный интервал, в который эта величина попадает с вероятностью. Поскольку распределение асимметрично (см. рис. 8.8), брать интервал симметричным, как для нормального распределения или распределения Стьюдента, неправомерно. Поэтому доверительный интервал строят так, чтобы площади под кривой распределения от 0 до и от до бесконечности были равны:

Рис. 8.8. Доверительный интервал распределения c²

z ₂

z ₁

c ²

f (c ²)

; (8.23)

. (8.24)

Для интеграла (8.24) при заданном по таблице процентных точек распределения (прил. 3) находят. Для получения перепишем выражение (8.23) в виде

откуда

Таким образом, получаем для случая неизвестного математического ожидания

а доверительный интервал

(8.25)

накрывает неизвестную дисперсию с заданной вероятностью.

Пример. Проведено независимых измерений случайной величины, имеющей нормальное распределение. Получены следующие результаты: 20, 21, 21, 25, 19, 22, 23, 23, 18, 21, 21, 17, 18, 24, 20, 22, 21, 19, 19, 22, 18, 23, 22, 18, 20. Необходимо определить 90 %-ные доверительные интервальные оценки математического ожидания и дисперсии измеренной случайной величины.

Точечные оценки математического ожидания и дисперсии:

;

По таблице процентных точек t -распределения Стьюдента для и (прил. 4) находим, что. Поэтому в соответствии с (8.22) получаем интервальную оценку математического ожидания в виде

По таблице процентных точек распределения для и (прил. 3) находим, что и. Таким образом, согласно (8.25) интервальная оценка дисперсии гауссовой случайной величины будет иметь вид

12 13 14 15 16 17 18

Подборка статей по вашей теме: