Пусть задана генеральная совокупность объектов, для которой фиксирован некоторой числовой признак
. Требуется оценить среднее значение признака
в генеральной совокупности – генеральную среднюю
. Для этого из генеральной совокупности выделяют часть (выборку), и по результатам ее обследования находят среднее значение признака
в выборке – выборочную среднюю
, с помощью которой и выполняют оценивание неизвестного значения
. Другими словами, выборочная средняя
является оценкой генерального среднего
.
Пример. Пусть некоторая совокупность деталей обследуется на предмет их длины. Тогда
– средняя длина деталей в генеральной совокупности,
– средняя длина деталей в выборке,
– длина детали, взятой наудачу из генеральной совокупности.
В том случае, когда оценивание сводится к использованию приближенного равенства
, говорят о точечном оценивании генеральной средней (см. § 7.1).
Возможно также интервальное оценивание генеральной средней (см. § 7.1). Для того чтобы объяснить, в чем оно состоит, введем в рассмотрение следующие понятия.
|
|
|
Определение. Для произвольного
интервал
называется доверительным интервалом;величина
называется в этом случае предельной ошибкой выборки.
Определение. Вероятность того, что неизвестное значение генеральной средней
накрывается доверительным интервалом, называется доверительной вероятностью.
Таким образом,

Интервальное оценивание состоит, например, в вычислении доверительной вероятности для заданной предельной ошибке выборки.
Как и всякая оценка, выборочная средняя
является случайной величиной. Действительно, элементы выборки отбираются из генеральной совокупности случайным образом, а значение
зависит от того, какие именно элементы попали в выборку. Рассмотрим свойства выборочной средней
как случайной величины.
Теорема 1. Математическое ожидание выборочной средней
равно генеральной средней
, то есть

Среднее квадратическое отклонение
выборочной средней вычисляется по формулам

– в случае повторной выборки и

– в случае бесповторной,
где
– объем выборки,
– объем генеральной совокупности,
– дисперсия признака
для рассматриваемой генеральной совокупности (генеральная дисперсия).
Напомним, что, по определению среднего квадратического отклонения,
равно корню квадратному из дисперсии выборочной средней, то есть

(аналогично в случае бесповторной выборки).
Замечание. При применении на практике формул Теоремы 1 полагают, что
.
Теорема 2. Закон распределения выборочной средней неограниченно приближается к нормальному при неограниченном увеличении объёма выборки.
|
|
|
Согласно результатам § 4.3, для произвольной нормально распределенной случайной величины
справедлива формула
.
Учитывая Теорему 2, в последнем равенстве положим
. Тогда, по Теореме 1,
и
, и приведенная формула – свойство нормального закона распределения принимает вид:
.
Вероятность, стоящая в левой части последнего равенства называется доверительной вероятностью (см. выше), поэтому сама эта формула называется формулой доверительной вероятности.
Теорема 3. Выборочная средняя
является несмещенной и состоятельной оценкой генеральной средней
.
Пример. Для обследования средней заработной платы трехсот рабочих была образована выборка, состоящая из пятидесяти рабочих. Результаты выборочного обследования представлены в таблице:
| Заработная плата в месяц, ден. ед. | 100-120 | 120-140 | 140-160 | 160-180 | 180-200 | 200-220 | |
| Число рабочих |
1. Найти вероятность того, что средняя заработная плата всех рабочих отличается от средней выборочной не более чем на 5 ден. ед. (по абсолютной величине) в случае повторной и бесповторной выборок.
2. Найти границы, в которых с вероятностью 0,9545 заключена средняя заработная плата всех рабочих.
3. Сколько рабочих надо взять в выборку, чтобы полученные в п. 2 доверительные границы можно было гарантировать с вероятностью 0,9973.
Решение. Исходный вариационный ряд является интервальным. Для нахождения его характеристик, прежде всего, сведем этот вариационный ряд к дискретному:
| | ||||||
|
где
– возможное значение заработной платы – середина
- го интервала исходного вариационного ряда (ден. ед.);
– число рабочих;
.

.

.

Для нахождения доверительной вероятности (см. п. 1 задания) воспользуемся одноименной формулой при
. Но сначала вычислим средние квадратические отклонения выборочной средней для каждого из рассматриваемых типов выборок.
а) Повторная выборка.


б) Бесповторная выборка,
.
.
.
Доверительный интервал в данном случае:
.
Тем самым получаем, что: неизвестное значение средней заработной платы всех рабочих накрывается интервалом (146,6;156,6) с вероятностью 0,8557 в случае повторной выборки и с вероятностью 0,89 в случае бесповторной выборки.
В п. 2 задания искомым является доверительный интервал, для нахождения которого следует вычислить предельную ошибку выборки
. Из условия и формулы доверительной вероятности в случае повторной выборки следует, что
.
По таблице значений функции Лапласа найдем такое значение
, что
. Имеем
. Поскольку
,
то
.
Соответствующий доверительный интервал:
.
Аналогично, в случае бесповторной выборки имеем
.
Соответствующий доверительный интервал:
.
Таким образом, неизвестное значение средней заработной платы всех рабочих с вероятностью 0,9545 накрывается доверительным интервалом (144,73; 158,47) в случае повторной выборки и доверительным интервалом (145,33; 157,87) в случае бесповторной выборки.
При решении п. 3 задания будем считать известными приближенные значения выборочной средней
и выборочной дисперсии
. Также используем предельные ошибки выборки
, найденные в п. 2. Рассмотрим сначала случай повторной выборки.
Из условия и формулы доверительной вероятности следует, что
.
По таблице значений функции Лапласа найдем такое значение аргумента
, что
:
. Тогда
и
.
Используя известную формулу для
(см. Теорему 2 данного параграфа), имеем равенство:
,
в котором единственной неизвестной является искомый объем выборки
. Решая получившееся уравнение относительно
, получаем
.
Подставляя в правую часть последнего равенства известные величины, получаем

(заметим, что округление в данном случае, по смыслу искомой величины, следует произвести до целых, причем в большую сторону, чтобы обеспечить, как говорят, запас по вероятности).
|
|
|
Повторяя проведенные рассуждения для случая бесповторной выборки, имеем:
,
.
Решая полученное уравнение относительно
, получаем
,
откуда
,

(также как и выше округление здесь произведено в большую сторону).
Таким образом, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (144,73; 158,47) в случае повторной выборки, в эту выборку следует взять 113 рабочих. Аналогично, для того, чтобы с вероятностью 0,9973 неизвестное значение средней заработной платы всех рабочих накрывалось доверительным интервалом (145,33; 157,87) в случае бесповторной выборки, в выборку следует взять 94 рабочих.
Замечание. Если в задаче на выборочный метод объем генеральной совокупности много больше объема выборки (в ряде случаев это предполагается по умолчанию, а объем генеральной совокупности просто не указан), естественно считать, что
. Как следует из формул Теоремы 1, случаи повторной и бесповторной выборок дают тогда совпадающие результаты.
7.5 Оценкагенеральнойдоли
Пусть требуется оценить долю тех объектов заданной генеральной совокупности, которые удовлетворяют некоторому условию
– генеральную долю
. Для этого из генеральной совокупности выделяют выборку, и по результатам её обследования находят долю тех объектов, которые удовлетворяют условию
– выборочную долю
. Очевидно, что
, где
– объем выборки,
– число тех её объектов, которые удовлетворяют условию
. Выборочная доля в данном случае является той величиной, с помощью которой мы получим информацию о неизвестном значении генеральной доли.
Таким образом, выборочная доля
является оценкой генеральной доли
.
Пример.
– доля бракованных деталей генеральной совокупности,
– доля бракованных деталей в выборке. Условие (событие)
– деталь, взятая наудачу из генеральной совокупности – бракована.
Простейший способ оценивания – точечное оценивание – подразумевает использование приближенного равенства
.
Как и всякая оценка, выборочная доля
является случайной величиной. Действительно, выборка из генеральной совокупности выделяется случайным образом. Соответственно то значение, которое примет выборочная доля, будет случайным.
|
|
|
Следующие теоремы характеризуют выборочную долю как случайную величину.
Теорема 1. Математическое ожидание выборочной доли равно генеральной доле:
.
Среднее квадратическое отклонение
(
) выборочной доли вычисляется по формулам

– в случае повторной выборки и

– в случае бесповторной выборки, где
– объем генеральной совокупности.
Напомним, что по определению среднего квадратического отклонения в случае повторной выборки имеем
(аналогично в случае бесповторной выборки).
Замечание. При применении формул Теоремы 1 полагают
.
Теорема 2. Закон распределения выборочной доли неограниченно приближается к нормальному закону при неограниченном увеличении объема выборки.
Подобно тому, как мы это сделали в предыдущем параграфе, как следствие Теоремы 2, получаем формулу доверительной вероятности:

– в случае повторной выборки. Заменяя в последнем равенстве
на
, получаем формулу доверительной вероятности в случае бесповторной выборки.
По определению, величина
, фигурирующая в формуле доверительной вероятности, называется предельной ошибкой выборки. Интервал
называется доверительным интервалом.
Выше было указано, в чем состоит точечная оценка генеральной доли. Интервальное оценивание сводится, например, к вычислению значения доверительной вероятности при заданной предельной ошибке выборки.
Теорема 3. В случае повторной выборки выборочная доля является несмещенной и состоятельной оценкой генеральной доли.
Пример. Выборочные данные о надое молока для 100 коров из 1000 представлены таблицей:
| Надой молока, ц | 10-20 | 20-30 | 30-40 | 40-50 | 50-60 | |
| Число коров |
1. Найти вероятность того, что доля всех коров с надоем молока более 40 ц отличается от такой доли в выборке не более чем на 0,05 (по абсолютной величине), для случая повторной и бесповторной выборок.
2. Найти границы, в которых с вероятностью 0,9596 заключена доля всех коров с надоем более 40 ц.
3. Сколько коров надо обследовать, чтобы с вероятностью 0,9786 для генеральной доли коров с надоем более 40 ц можно было гарантировать те же границы что и в п.2.
Решение. Число
коров с надоем более 40 ц равно 34 (
, см. заданный вариационный ряд). Тогда
.
Для нахождения доверительной вероятности п. 1 задания воспользуемся одноименной формулой при
.
Пусть рассматриваемая выборка – повторная. Тогда по формуле Теоремы 1, учитывая Замечание, получаем
.
Следовательно
.
Аналогично, в случае бесповторной выборки:
,
.
Доверительным в данном случае является интервал
. Таким образом, неизвестное значение доли всех коров с надоем более 40 ц накрывается доверительным интервалом (0,29;0,39) с вероятностью 0,7109 в случае повторной выборки и с вероятностью 0,733 в случае бесповторной выборки.
В п. 2 задания при заданном значении доверительной вероятности искомым является доверительный интервал. Поскольку значение выборочной доли известно, остается найти предельную ошибку выборки
.
Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем
.
По таблице значений функции Лапласа найдем такое
, что
:
. Тогда
и, используя найденное выше значение
, получаем
.
Соответственно, доверительным будет интервал:
.
Пусть выборка – бесповторная. Аналогично предыдущему, получаем предельную ошибку выборки

и доверительный интервал:
.
Таким образом, доля всех коров с надоем молока более 40 ц с вероятностью 0,9596 накрывается доверительным интервалом (0,243; 0,437) в случае повторной выборки и интервалом (0,248; 0,432) в случае бесповторной выборки.
В п. 3 по заданным значениям доверительной вероятности и предельной ошибки выборки найдем необходимый объем выборки. Из начла решения заимствуем значение выборочной доли
, найденное по исходному вариационному ряду.
Пусть выборка – повторная. По условию, принимая во внимание формулу доверительной вероятности, имеем:
.
По таблице значений функции Лапласа найдем такое
, что
:
. Тогда
и,
. Подставляя вместо
выражение из Теоремы 1, приходим к уравнению относительно неизвестной величины
:
.
Решая это уравнение относительно
, подставляя в полученную формулу известные величины, завершаем решение

(заметим, что, как и ранее, округление здесь произведено в большую сторону).
Аналогично, в случае бесповторной выборки из условия и формулы доверительной вероятности следует равенство

или, принимая во внимание известное выражение для
(см. Теорему 1):
.
Решая это уравнение относительно
, получаем
.
Подставляя в правую часть последнего равенства известные значения, окончательно имеем:
.
Таким образом, в повторную выборку надо взять 127 коров, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,243; 0,437). Аналогично, в бесповторную выборку надо взять 123 коровы, чтобы с вероятностью 0,9786 можно было утверждать, что доля всех коров с надоем молока более 40 ц накрывается доверительным интервалом (0,248; 0,432).
Домашнее задание:9.19, 9.21, 9.23, 9.30.