Определение ошибок выборки

По мере отбора единиц в выборочную совокупность или по его завершении производится регистрация предусмотренных программой признаков. Итогом же является расчет обобщающих выборочных характеристик. Часто кроме выборочной средней (X) исчисляют также выборочную долю (W) единиц, обладающих каким-либо интересующим нас признаком, в общей их численности.

Разность между показателями выборочной и генеральной совокупности называется ошибкой выборки. Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Рассмотрим на примере, насколько отличаются выборочные и генеральные показатели по данным об успеваемости студентов (две 10 %-е выборки):

Оценка Число студентов, чел.
Генеральная совокупность совокупностьсовокупность Первая выборка Вторая выборка
       
Итого      

Средний балл рассчитаем по средней арифметической взвешенной.

По генеральной совокупности

=3,58

по первой выборке ;

по второй выборке .

Доля студентов, получивших оценки «4» и «5»:

по генеральной совокупности или 60%;

по первой выборке или 64%;

по второй выборке или 59%.

Разность между показателями выборочной и генеральной совокупности и будет случайной ошибкой репрезентативности. Ошибки репрезентативности:

;

;

Как видно из расчетов, выборочная средняя и выборочная доля являются случайными величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Следовательно,

Ошибки выборки также являются случайными величинами и могут принимать различные значения. Поэтому определяют среднюю из возможных ошибок (обозначим ее через m).

Средняя ошибка выборки равна среднему квадратическому отклонению, деленному на квадратный корень из численности выборки:

для средней ;

для доли .

В этих формулах и являются характеристиками генеральной совокупности, которые при выборочном наблюдении неизвестны. На практике их заменяют аналогичными характеристиками выборочной совокупности на основании закона больших чисел, по которому выборочная совокупность при достаточно большом объеме достаточно точно воспроизводит характеристики генеральной совокупности. Следовательно, средние ошибки выборки можно представить следующим образом:

и .

При бесповторном отборе подкоренное выражение умножается на величину , которая всегда меньше единицы, поэтому величина средней ошибки выборки при бесповторном отборе оказывается меньше, чем при повторном. В тех случаях, когда доля выборки незначительна и множитель близок к единице, поправкой можно пренебречь.

Для решения практических задач кроме средней пользуются предельной ошибкой выборки, которая связана с гарантирующим ее уровнем вероятности. Уровень вероятности определяет величина нормированного отклонения t, и наоборот. Значения t даются в таблицах нормального распределения вероятностей.

Чаще всего используют следующие сочетания;

P
1,0 0,683
1,5 0,866
2,0 0,954
2,5 0,988
3,0 0,997
3,5 0,999

Так, если t =1, то с вероятностью 0,683 можно утверждать, что разность между выборочными и генеральными показателями не превысит одной средней ошибки.

После исчисления предельных ошибок выборки находят доверительные интервалы для генеральных показателей. Для это (X ± DC). Для Р это (W ± Dw).

Предельные ошибки выборки () определяются по формулам табл. 3.1.

Таблица 3.1

Предельные ошибки выборки

Метод отбора Предельные ошибки индивидуального отбора
для средней для доли
  Повторный   D=   D=
  Бесповторный   D=   D=

Из формул табл. 3.1 видно, что величина D зависит от:

1) колеблемости признака (прямая связь);

2) численности выборки (обратная связь);

3) доверительной вероятности (прямая связь);

4) метода отбора.

Формулы, приведенные в табл. 3.1, используются при определении ошибок выборки, осуществляемой собственно случайным или механическим методами.

При стратифицированном отборе в выборку обязательно попадают представители всех групп и обычно в тех же пропорциях, что и в генеральной совокупности. Поэтому ошибка выборки в Данном случае зависит главным образом от средней из групповых дисперсий (). По правилу сложения дисперсий

Отсюда следует, что ошибка выборки для стратифицированного отбора всегда будет меньше, чем для собственно случайного.

При серийном (гнездовом) отборе мерой колеблемости будет межгрупповая дисперсия ().

3.6. Определение численности выборки

Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность. Формулы для определения численности выборки (n) зависят от метода отбора. Они различны для расчета средней и доли и следуют из формул предельных ошибок выборки (табл. 3.2).

Значения D и t определяются как задачами, стоящими перед исследователем, так и природой изучаемого явления. Чем более достоверные результаты требуется получить, тем большую вероятность необходимо задать. С увеличением допустимой ошибки уменьшается необходимый объем выборки, и наоборот (т.е., например, увеличение ошибки выборки в 2 раза уменьшит n в 4 раза). Вариация () признака существует объективно, независимо от исследователя, но к началу выборочного наблюдения она неизвестна. Приближенно определяется следующими способами:

1) берут из предыдущих исследований;

2) по правилу «трех сигм» общий размах вариации укладывается в 6 сигм (= 6, отсюда = /6). Для большей точности делят на 5;

3) если хотя бы приблизительно известна средняя величина изучаемого признака, то =/3;

4) при изучении альтернативного признака, если нет даже приблизительных сведений о доле единиц, обладающих заданным значением этого признака, берется максимально возможная величина дисперсии, равная 0,25.


Понравилась статья? Добавь ее в закладку (CTRL+D) и не забудь поделиться с друзьями:  




Подборка статей по вашей теме: