Выборка может строиться как одпо- или многоступенчатая.
При многоступенчатом отборе па каждой ступени меняется единица отбора. Например, на первой ступени производится отбор про-лышленных предприятий, на второй — отбор бригад на предприятиях, попавших в выборку па первой ступени, па третьей — отбор рабочих нз бригад, попавших в выборку на второй ступени отбора, и т. д.
Необходимость многоступенчатого отбора вызвана, как правило, отсутствием информации о всех единицах генеральной совокупности. При многоступенчатом отборе для организации первой ступени необходимо иметь информацию о распределении того или иного признака по всей совокупности единиц отбора первой ступени. Цлн организации второй ступени нужна уже только информация об отобранных единицах первой ступени.
Па первой ступени, как правило, используется случайный отбор, а пачиная со второй ступени случайно отбирается количество единиц, пропорциональное размвру соответствующей единицы предыдущей стунепи и т. д.
Доли отбора на каждой ступени комбинируются таким образом, чтобы в целом доля отбора выборки обеспечивала всем единицам генеральной совокупности равные шансы попасть в выборку.
Пропорциональный способ организации многоступенчатой выборки имеет определенные неудобства. Социолог, с одной стороны, уменьшает объем выборки в целях экономии средств и сокращения сроков проведения исследования, а с другой,— соблюдая принцип пропорциональности, он может получить очень малочисленные группировки по отдельным факторам, которые окажутся недостаточными для статистического анализа.
Существует несколько способов формирования многоступенчатые выборок.
Для примера рассмотрим способ организации двухступенчатой выборки, отбор единиц которой на первой ступени осуществляется с вероятностью, пропорциональной размеру. Воспользуемся для примера условиями и задачами организации выборки в известном исследовании ленинградских социологов.
Единицы первой ступени отбора — предприятия города.
Составляется полный список единиц наблюдений первой ступени; отбора — промышленных предприятий и численности молодых рабочих на каждом из них. Генеральная совокупность включала 50 таких предприятии.
Предприятие (i) Число молодых раОочнх Накопленные численности
1 Л\ Nt
* • «
" SJV, = N
Единицы отбора рапжпруются по численности рабочих, выделенных в качестве единиц наблюдения. Принимается решение о включении в выборку определенного числа заводов, например пяти. По» таблице случайных чисел выбирается 5 чисел (Ми Мг, М3, Л/4 и Л/5) между N, и N (общей кумулнрованпой числепностыо рабочих в геперальпой совокупности). В выборку включаются те предприятия,. чьи номера (£) оказались в той же строке (у), которая соответствует кумуляте, содержащей одно из чисел Мк (к = 1-г-5), т. е. i — h если /V.-l-Wj+... + #,_,<.*/»<#,+ #, +...4-^ по всем Аг.
Вторая ступень отбора реализуется следующим образом. На каждом предприятии, включенном в выборку, выбирается одно и та же число рабочих (и11 единиц второй ступени отбора). Далее отбор может быть случайным или систематическим.
Ошибка многоступенчатой выборки (на примере двухступенчатой выборки). При многоступенчатом отборе (начиная с двухступенчатого) следует учитывать специфику расчета ошибки выборки. Каждая ступень отбора делает свой «вклад» в отклонение находимых оценок от истинных значений характеристик в генеральной совокупности.
Для достаточно большого объема выборки существуют упрощенные формулы расчета средней ошибки.
Для двухступепчатой выборки
— У¥ЩШ- т
где s\ — дисперсия единиц первой ступени отбора и пх — пх численность; sfi — дисперсия единиц второй ступени отбора и и" — их численность в составе единиц первой ступени отбора в выборке.
В формуле учтены оба источника ошибок репрезентативности при двухступенчатом отборе. Первый член формулы под корнем указывает па дисперсию, вызванную формированием первой ступени отбора. Второй член указывает на внутригрупповую дисперсию, связанную с организацией второй ступени выборки.
Упрощенность этой формулы состоит в том, что впутригруппо-вые дисперсии рассчитываются внутри каждой единицы первой ступени после отбора из нее единиц второй ступени. Здесь указана «невзвешенная» средняя из квадратов ошибок по всей сумме единиц второй ступени (п11). Это второй источник случайных ошибок.
Многофазовый отбор. Многофазовый отбор является особым видом многоступенчатого отбора. Он заключается в том, что из сформированной выборки большего объема производится новая выборка (подвыборка) меньшего объема и т. д.
Особенностью этого способа формирования выборочной совокупности является то, что независимо от числа фаз в последующих подвыборках используется неизменно одна и та же единица отбора, что н в основпой выборке.
К многофазовому отбору прибегают тогда, когда в рамках исследования, которое проводится на большой выборке, возникает необходимость тщательного изучения более узкого круга вопросов. Для этих целей формируется вторая фаза — та же выборка в миниатюре и т. д.
Как и в многоступенчатых выборках, при многофазовом отборе каждая фаза является источником случайных ошибок.
Пример двухфазовой стратифицированной выборки '. В ходе исследования сельского населения возникла необходимость более углубленно изучить его культурные потребности и материальные затраты на «потребление культуры».
Основная выборка (п) была сделана из стратифицированной ге-неральпой совокупности — изучаемый регион был разделен на.1 страт по типу хозяйств: от мелких (1) до самых крупных (5). Вторая фаза выборки (и11) была организована нз этой основной.
, Число людей в первой фазе вы- Число людей во второп фазе
Тип хозяйств боркн выборки
1 635 84
2 570 125
3 475 138
4 303 112
5 89 41
п = 2072 п" = 400
7 Дружинин II. К. Указ. соч., с. 202—203. Условия задачи измопены.
При исчислении выборочных показателей по выборке необходимо учитывать оба компонента случайной ошибки (как и в случав двухступенчатого отбора), связанного со структурой выборки первой фазы (п) и второй фазы (л").
Комбинированные выборки. Соединение в многоступенчатой выборке различных приемов отбора (простого случайного, систематического или серийного) делает выборку комбинированной.
Как уже указывалось, большинство используемых в современных социологических исследованиях выборок являются комбиниро-ианными.
Одноступенчатая стратифицированная выборка. Комбинированная одноступенчатая выборка использовалась социологами ИСИ АН СССР при формировании выборочной совокупности для изучения индивидуальной производительности труда (индивидуальных норм выработки) рабочих сдельщиков.
Пример. На основе предварительного анализа пилотажного массива из шести возможных для формирования выборки признаков (возраст, образование, стаж до профессии и на данном заводе, заработная плата и квалификация) были выбраны два — заработная плата и стаж по профессии. Эти признаки обнаружили наибольшее влияние на изучаемый показатель — норму выработки'.
Генеральная совокупность была стратифицирована на 6 страт, различающихся уровнем заработной платы.
Отбор в стратах имел случайный характер — по распределению второго по «весу» признака (стаж по профессии).
Были известны следующие данные по генеральной совокупности.
., Заработная Численность.. Стаж по профес- Численность
•Л. группы плата1 руб. рабочих м группы сии> лет рабочих
1 60—80 46 1 1—2 164
2 81—100 162 2 3—4 109
3 101—130 500 3 5—10 381
4 131—160 292 4 11—16 168
5 Более 160 101 5 Более 16 279
2 = 1100 2 = 1100
Размер выборки для бесповторного отбора быд определен по
формуле (см. табл. 16)
п = N& + ZV = 291 человек-
тде s2 = m(l — m), m — выборочная доля. Дисперсия качественного признака (выполнение нормы сдельщиками) при отсутствии инфор-
* «Вес» влияния признаков оценивался с помощью коэффициента зависимости между соответствующими признаками. (См.: Осипов Г. В., Андреенков В. Г. Эмпирическое обоснование гипотез в социологическом' исследовании.— Со-циол. исслед., 1974, № 1, с. 165),
мации была принята равной s2 = 0,5 • 0,5 =0,25. Доверительная вероятность 1 — а = 0,95; предельная ошибка репрезентативности А = = 0,05.
В связи с тем что построение репрезентативной районированной выборки означает сохранение в выборке пропорции для групп генеральной совокупности, для определения размера групп выборочной
п{ A'j совокупности принимается следующий план9: — = -дг~> где N и п —
размеры соответственно генеральной совокупности и выборки; N, и п{ ■— размеры соответственно страт в генеральной и выборочной совокупностях. Рассчитывается численность каждой страты (представительство групп заработной платы) в выборке
Пропорциональное построение выборки соответствовало следующим необходимым размерам групп:
и, = 12; и2 = 43; п3 = 132; и4 = 77; пь = 27,
Следующая стадия работы заключалась в расчете доли для страт стажа.
Для пропорционального построения выборки отбор по стажу сле-
niQ NiQ
дует согласовать с планом: —— = - v,
"i "i
где NtQ — численность каждой страты по стажу в отдельной страте по уровню зарплаты в генеральной совокупности, nIQ — соответственно для выборки.
Когда найдены эти доли для каждой страты по стажу, рассчитывается, сколько единиц наблюдения и с каким стажем должна попасть из каждой такой страты в выборочную совокупность. Например, доля для стажа 1 — 2 года и заработной платы 60—80 руб.. равна 0,60, а для стажа 3—4 года в той же типической группе доля равна 0,40. Исходя из них, находим размер выборки для каждой: страты:
0,60 • 12 at 7 и 0,4 • 12 ^ 5.
Аналогичный расчет производится по всем остальным стратам. В результате формируется план пропорциональной выборки в абсолютных числах и процентах (табл. 20).
По таблице случайных чисел выбираются случайные числа в соответствии с размером каждой группы, представленной в выборке (табл. 20).
Предварительно картотека была стратифицировала по группам заработной платы и карточки пронумерованы. Из каждой группы выбирались карточки, соответствующие случайным числам. Если.
8 Можно ограничиться случайным отбором внутри каждой страты и затек» на практике оцепить репрезентативность групп стажа в выборочной сово-^ куппости,
стаж па выбранной карточке должен был быть представлен в группе, карточка отбиралась в выборку. Если стаж не должен был быть представлен в данной группе, карточка возвращалась в генеральную совокупность.
Появление карточек, которые возвращались в массив, потребовало дополнительного выбора случайных чисел для каждой группы, пока не был обеспечен намеченный по плану размер. Как видно из
Таблица 20. План выборки
Стаж по про- Численность выработки в груп- _ % в генераль- % в оконча-
фессни, лет пах по уровню заработной платы Всег0 ной совокуп- тельной вы-
HOOT И OOJ3f{6
1—2 7 18 18 0 0 43 14,9 14,8
3—4 5 11 14 0 0 30 9,9 9,6
5-10 0 14 53 28 6 101 34,6 36,4
11—16 0 0 19 18 7 44 15,2 16,5
Больше 16 0 0 28 31 14 73 25,3 22,7
л; 12 43 132 77 27 291 99,9 100,0
табл. 20, некоторые смещения оказались в группах с большим стажем. Но выборка репрезентативна по контролируемому признаку — -средней норме выработки: в генеральной совокупности—109%, в выборке —108,9%.
Рассчитаем по этой выборке оценку доли перевыполняющих план выработки в генеральной совокупности"1 (табл. 21).
Таблица 21. Распределение численности выполняющих план (выборочные данные)
Перевыполняют план
Группа Выполняют план, ' Общий объем груи-
зарплаты абс. цифры п~ абс. цифры „+ доли т. п". *бс. цифры п.
1 8 4 0,33 12
2 21 22 0,51 43
3 21 111 0,84 132
4 5 72 0,935 77
5 0 27 1,00 27
2Х = 55 22 = 236 п = 2 = 291
i=l
Общая доля рабочих, перевыполняющих план, равна
m = w==0-81(81%)-
10 В пилотажной выборке не оказалось лиц, пе выполняющих норм выработки. Поэтому представляло интерес определить долю не выполняющих, а перо-выполняющих норму,
Чтобы использовать показатель доли по выборке как оценку соответствующего параметра в генеральной совокупности, необходимо рассчитать среднюю ошибку выборки.
Расчет дисперсии доли в стратифицированной выборке производится по формуле
t=l i=X *
,j e 0,33(1^-0,33) = 0020. $l = 0,93(^-0,93) = 0Qm.
sl = 0,51 g - 0,51) = 0006. f, = jj^il = 0.
s* e 0,84(1-0,84) = 0001; ^ = 2. = 00278) или 2>78 %. Расчет средней ошибки выборки производится по формуле
„ т/ 0,0278 (1100-291) п ппя,
М = V ------ 29П099----- = °'°084-
При доверительной вероятности 0,95 предельная ошибка выборки д = ZM = 1,96 • 0,0084 = 0,016, или 1,6%.
Таким образом, с вероятностью 0,95 можно утверждать, что доля перевыполняющих план будет в интервале (81 ± 1,6)%.