Оценка генеральной средней

Пусть задана генеральная совокупность объектов, для которой фиксирован некоторой числовой признак . Требуется оценить среднее значение признака в генеральной совокупности – генеральную среднюю . Для этого из генеральной совокупности выделяют часть (выборку), и по результатам ее обследования находят среднее значение признака в выборке – выборочную среднюю , с помощью которой и выполняют оценивание неизвестного значения . Другими словами, выборочная средняя является оценкой генерального среднего .

Пример. Пусть некоторая совокупность деталей обследуется на предмет их длины. Тогда – средняя длина деталей в генеральной совокупности, – средняя длина деталей в выборке, – длина детали, взятой наудачу из генеральной совокупности.

В том случае, когда оценивание сводится к использованию приближенного равенства , говорят о точечном оценивании генеральной средней (см. § 7.1).

Возможно также интервальное оценивание генеральной средней (см. § 7.1). Для того чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия.

Определение. Для произвольного интервал называется доверительным интервалом;величина называется в этом случае предельной ошибкой выборки.

Определение. Вероятность того, что неизвестное значение генеральной средней накрывается доверительным интервалом, называется доверительной вероятностью.

Таким образом,

– доверительная вероятность.

Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибке выборки.

Как и всякая оценка, выборочная средняя является случайной величиной. Действительно, элементы выборки отбираются из генеральной совокупности случайным образом, а значение зависит от того, какие именно элементы попали в выборку. Рассмотрим свойства выборочной средней как случайной величины.

Теорема 1. Математическое ожидание выборочной средней равно генеральной средней , то есть

Среднее квадратическое отклонение выборочной средней вычисляется по формулам

– в случае повторной выборки и

– в случае бесповторной,

где – объем выборки, – объем генеральной совокупности, – дисперсия признака для рассматриваемой генеральной совокупности (генеральная дисперсия).

Напомним, что, по определению среднего квадратического отклонения, равно корню квадратному из дисперсии выборочной средней, то есть

(аналогично в случае бесповторной выборки).

Замечание. При применении на практике формул Теоремы 1 полагают, что

.

Теорема 2. Закон распределения выборочной средней неограниченно приближается к нормальному при неограниченном увеличении объёма выборки.

Согласно результатам § 4.3, для произвольной нормально распределенной случайной величины справедлива формула

.

Учитывая Теорему 2, в последнем равенстве положим . Тогда, по Теореме 1, и , и приведенная формула – свойство нормального закона распределения принимает вид:

.

Вероятность, стоящая в левой части последнего равенства называется доверительной вероятностью (см. выше), поэтому сама эта формула называется формулой доверительной вероятности.

Теорема 3. Выборочная средняя является несмещенной и состоятельной оценкой генеральной средней .

Пример. Для обследования средней заработной платы трехсот рабочих была образована выборка, состоящая из пятидесяти рабочих. Результаты выборочного обследования представлены в таблице:

Заработная плата в месяц, ден. ед. 100-120 120-140 140-160 160-180 180-200 200-220
Число рабочих              

1. Найти вероятность того, что средняя заработная плата всех рабочих отличается от средней выборочной не более чем на 5 ден. ед. (по абсолютной величине) в случае повторной и бесповторной выборок.

2. Найти границы, в которых с вероятностью 0,9545 заключена средняя заработная плата всех рабочих.

3. Сколько рабочих надо взять в выборку, чтобы полученные в п. 2 доверительные границы можно было гарантировать с вероятностью 0,9973.

Решение. Исходный вариационный ряд является интервальным. Для нахождения его характеристик, прежде всего, сведем этот вариационный ряд к дискретному:

           
             

где – возможное значение заработной платы – середина - го интервала исходного вариационного ряда (ден. ед.); – число рабочих; .

.

.

Для нахождения доверительной вероятности (см. п. 1 задания) воспользуемся одноименной формулой при . Но сначала вычислим средние квадратические отклонения выборочной средней для каждого из рассматриваемых типов выборок.

а) Повторная выборка.

б) Бесповторная выборка, .

.

.

Доверительный интервал в данном случае: .

Тем самым получаем, что: неизвестное значение средней заработной платы всех рабочих накрывается интервалом (146,6;156,6) с вероятностью 0,8557 в случае повторной выборки и с вероятностью 0,89 в случае бесповторной выборки.

В п. 2 задания искомым является доверительный интервал, для нахождения которого следует вычислить предельную ошибку выборки . Из условия и формулы доверительной вероятности в случае повторной выборки следует, что

.

По таблице значений функции Лапласа найдем такое значение , что . Имеем . Поскольку

,

то

.

Соответствующий доверительный интервал:

.

Аналогично, в случае бесповторной выборки имеем

.

Соответствующий доверительный интервал:

.

Таким образом, неизвестное значение средней заработной платы всех рабочих с вероятностью 0,9545 накрывается доверительным интервалом (144,73; 158,47) в случае повторной выборки и доверительным интервалом (145,33; 157,87) в случае бесповторной выборки.

При решении п. 3 задания будем считать известными приближенные значения выборочной средней и выборочной дисперсии . Также используем предельные ошибки выборки , найденные в п. 2. Рассмотрим сначала случай повторной выборки.

Из условия и формулы доверительной вероятности следует, что

.

По таблице значений функции Лапласа найдем такое значение аргумента , что : . Тогда

и .

Используя известную формулу для (см. Теорему 2 данного параграфа), имеем равенство:

,

в котором единственной неизвестной является искомый объем выборки . Решая получившееся уравнение относительно , получаем

.

Подставляя в правую часть последнего равенства известные величины, получаем

(заметим, что округление в данном случае, по смыслу искомой величины, следует произвести до целых, причем в большую сторону, чтобы обеспечить, как говорят, запас по вероятности).

Повторяя проведенные рассуждения для случая бесповторной выборки, имеем:

,

.

Решая полученное уравнение относительно , получаем

,

откуда

,

(также как и выше округление здесь произведено в большую сторону).

Таким образом, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (144,73; 158,47) в случае повторной выборки, в эту выборку следует взять 113 рабочих. Аналогично, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (145,33; 157,87) в случае бесповторной выборки, в выборку следует взять 94 рабочих.

Замечание. Если в задаче на выборочный метод объем генеральной совокупности много больше объема выборки (в ряде случаев это предполагается по умолчанию, а объем генеральной совокупности просто не указан), естественно считать, что . Как следует из формул Теоремы 1, случаи повторной и бесповторной выборок дают тогда совпадающие результаты.

7.5 Оценкагенеральнойдоли

Пусть требуется оценить долю тех объектов заданной генеральной совокупности, которые удовлетворяют некоторому условию генеральную долю . Для этого из генеральной совокупности выделяют выборку, и по результатам её обследования находят долю тех объектов, которые удовлетворяют условию выборочную долю . Очевидно, что , где – объем выборки, – число тех её объектов, которые удовлетворяют условию . Выборочная доля в данном случае является той величиной, с помощью которой мы получим информацию о неизвестном значении генеральной доли.

Таким образом, выборочная доля является оценкой генеральной доли .

Пример. – доля бракованных деталей генеральной совокупности, – доля бракованных деталей в выборке. Условие (событие) – деталь, взятая наудачу из генеральной совокупности – бракована.

Простейший способ оценивания – точечное оценивание – подразумевает использование приближенного равенства .

Как и всякая оценка, выборочная доля является случайной величиной. Действительно, выборка из генеральной совокупности выделяется случайным образом. Соответственно то значение, которое примет выборочная доля, будет случайным.

Следующие теоремы характеризуют выборочную долю как случайную величину.

Теорема 1. Математическое ожидание выборочной доли равно генеральной доле:

.

Среднее квадратическое отклонение () выборочной доли вычисляется по формулам

– в случае повторной выборки и

в случае бесповторной выборки, где объем генеральной совокупности.

Напомним, что по определению среднего квадратического отклонения в случае повторной выборки имеем (аналогично в случае бесповторной выборки).

Замечание. При применении формул Теоремы 1 полагают

.

Теорема 2. Закон распределения выборочной доли неограниченно приближается к нормальному закону при неограниченном увеличении объема выборки.

Подобно тому, как мы это сделали в предыдущем параграфе, как следствие Теоремы 2, получаем формулу доверительной вероятности:

– в случае повторной выборки. Заменяя в последнем равенстве на , получаем формулу доверительной вероятности в случае бесповторной выборки.

По определению, величина , фигурирующая в формуле доверительной вероятности, называется предельной ошибкой выборки. Интервал называется доверительным интервалом.

Выше было указано, в чем состоит точечная оценка генеральной доли. Интервальное оценивание сводится, например, к вычислению значения доверительной вероятности при заданной предельной ошибке выборки.

Теорема 3. В случае повторной выборки выборочная доля является несмещенной и состоятельной оценкой генеральной доли.

Пример. Выборочные данные о надое молока для 100 коров из 1000 представлены таблицей:

Надой молока, ц 10-20 20-30 30-40 40-50 50-60
Число коров            

1. Найти вероятность того, что доля всех коров с надоем молока более 40 ц отличается от такой доли в выборке не более чем на 0,05 (по абсолютной величине), для случая повторной и бесповторной выборок.

2. Найти границы, в которых с вероятностью 0,9596 заключена доля всех коров с надоем более 40 ц.

3. Сколько коров надо обследовать, чтобы с вероятностью 0,9786 для генеральной доли коров с надоем более 40 ц можно было гарантировать те же границы что и в п.2.

Решение. Число коров с надоем более 40 ц равно 34 (, см. заданный вариационный ряд). Тогда .

Для нахождения доверительной вероятности п. 1 задания воспользуемся одноименной формулой при .

Пусть рассматриваемая выборка – повторная. Тогда по формуле Теоремы 1, учитывая Замечание, получаем

.

Следовательно

.

Аналогично, в случае бесповторной выборки:

,

.

Доверительным в данном случае является интервал . Таким образом, неизвестное значение доли всех коров с надоем более 40 ц накрывается доверительным интервалом (0,29;0,39) с вероятностью 0,7109 в случае повторной выборки и с вероятностью 0,733 в случае бесповторной выборки.

В п. 2 задания при заданном значении доверительной вероятности искомым является доверительный интервал. Поскольку значение выборочной доли известно, остается найти предельную ошибку выборки .

Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем

.

По таблице значений функции Лапласа найдем такое , что : . Тогда и, используя найденное выше значение , получаем

.

Соответственно, доверительным будет интервал:

.

Пусть выборка – бесповторная. Аналогично предыдущему, получаем предельную ошибку выборки

и доверительный интервал:

.

Таким образом, доля всех коров с надоем молока более 40 ц с вероятностью 0,9596 накрывается доверительным интервалом (0,243; 0,437) в случае повторной выборки и интервалом (0,248; 0,432) в случае бесповторной выборки.

В п. 3 по заданным значениям доверительной вероятности и предельной ошибки выборки найдем необходимый объем выборки. Из начла решения заимствуем значение выборочной доли , найденное по исходному вариационному ряду.

Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем:

.

По таблице значений функции Лапласа найдем такое , что : . Тогда и, . Подставляя вместо выражение из Теоремы 1, приходим к уравнению относительно неизвестной величины :

.

Решая это уравнение относительно , подставляя в полученную формулу известные величины, завершаем решение

(заметим, что, как и ранее, округление здесь произведено в большую сторону).

Аналогично, в случае бесповторной выборки из условия и формулы доверительной вероятности следует равенство

или, принимая во внимание известное выражение для (см. Теорему 1):

.

Решая это уравнение относительно , получаем

.

Подставляя в правую часть последнего равенства известные значения, окончательно имеем:

.

Таким образом, в повторную выборку надо взять 127 коров, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,243; 0,437). Аналогично, в бесповторную выборку надо взять 123 коровы, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,248; 0,432).

Домашнее задание:9.19, 9.21, 9.23, 9.30.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  



double arrow
Сейчас читают про: