Выборка и генеральная совокупность. Типы выборок

Как указано выше, чаще всего мы не располагаем всеми данными о генеральной совокупности, поэтому и основные характеристики генеральной совокупности мы точно вычислить не можем. Обычная процедура состоит в том, что мы осуществляем выборку некоторых объектов из генеральной совокупности и на основании выборочных данных получаем в результате не сами значения характеристик генеральной совокупности, а их оценки. Разумеется, точность наших оценок зависит от сделанной выборки, причем важен не только объем выборки, но и ее характер.

По характеру выборки делятся на механические, случайные и представительные.

Механическая (систематическая) выборка: выборка, основанная на нумерации. При этом все элементы генеральной совокупности нумеруются, после чего в выборку включаются все элементы, с номерами, кратными некоторому числу (каждый пятый, двадцатый, сотый и т.п.).

Например: по римскому обычаю армию, которая бежала с поля боя, бросив оружие, полководец мог подвергнуть децимации. Солдат, бросивших оружие, выстраивали и рассчитывали по десяткам, каждый десятый делал шаг вперед, и тех, на кого выпал жребий, казнили перед строем.[3]

Механическая выборка применяется редко, т.к. она непредставительна и к тому же содержит скрытую опасность резонансов, особенно, применительно к временнЫм рядам. Например, если мы, анализируя трудовую дисциплину, будем учитывать данные каждого седьмого дня, мы получим данные по одному дню недели. А в разные дни недели показатели трудовой дисциплины различны. Этот простой пример дан как иллюстрация, но он наглядно демонстрирует опасности механической выборки.

Противоположностью механической выборки является представительная (типическая, репрезентативная, квотная) выборка. При таком способе построения выборки мы заранее определяем список параметров, влияющих на те признаки, которые мы собираемся исследовать. Например, если мы проводим маркетинговое исследование, то главными признаками обычно являются возраст, пол, уровень доходов, социальный статус. Каждый из этих признаков мы ранжируем, т.е. разбиваем на группы (например по уровню доходов разбиваем на три группы, по возрасту на 4, по полу на две и по социальному статусу на 3). Тогда вся генеральная совокупность по этим параметрам разобьется на 3×4×2×3 = 72 группы. Выборка является представительной (квотной), если доля каждой из этих 72-х групп в выборке (квота) соответствует их доле в генеральной совокупности.

Заметим, что полного соответствия обычно добиться не удается, для его достижения потребовались бы выборки очень большого объема, а также очень развитые и сложно организованные корреспондентские сети у служб, организующих выборку. Эффект, порожденный неполной представительностью выборки, называется дизайн-эффектом, и именно дизайн-эффект очень часто является определяющим фактором в общей величине ошибки, допущенной при социологическом исследовании. В отчетах солидных социологических фирм помимо ошибки, связанной с ограниченным объемом выборки, указывается и ошибка, вызванная дизайн-эффектом. Объединение нескольких социологических служб при проведении опросов связано более всего со стремлением преодолеть перекосы в собственной корреспондентской сети и тем самым уменьшить дизайн-эффект.

В США одним из наиболее известных исторических примеров решающего влияния дизайн-эффекта (эффекта нерепрезентативной выборки) считается случай, происшедший во время президентских выборов в 1936 году. Журнал «Литрери Дайджест», успешно прогнозировавший события нескольких предшествующих выборов, ошибся в своих предсказаниях, разослав десять миллионов пробных бюллетеней своим подписчикам, а также людям, указанных в телефонных книгах всей страны, и людям из регистрационных списков автомобилей. В 25 % вернувшихся бюллетеней (почти 2,5 миллиона) голоса были распределены следующим образом:

57 % отдавали предпочтение кандидату-республиканцу Альфу Лэндону

40 % выбрали действующего в то время президента-демократа Франклина Рузвельта

На действительных же выборах, как известно, победил Рузвельт, набрав более 60 % голосов. Ошибка «Литрери Дайджест» заключалась в следующем: желая увеличить репрезентативность выборки, — а им было известно, что большинство их подписчиков считают себя республиканцами, — они расширили выборку за счёт людей, выбранных из телефонных книг и регистрационных списков. Однако они не учли современных им реалий и в действительности набрали ещё больше республиканцев: во время Великой депрессии обладать телефонами и автомобилями могли себе позволить в основном представители среднего и верхнего класса (то есть большинство республиканцев, а не демократов) /Википедия/

Случайная (вероятностная) выборка: из полного списка генеральной совокупности выбираются заданное количество элементов с использованием какой-либо процедуры рандомизации[4], например присваивая всем номера, а номера отбирая с помощью генератора случайных чисел. Эта выборка не гарантирует репрезентативности результата, но зато эффекты резонанса, возможные в случае механической выборки, тут наблюдаются редко. Используется для выборок сравнительно небольшого объема и вообще для получения быстрых и недорогих результатов, а также в ситуациях, когда нет выраженных характеристик элементов генеральной совокупности, значимо влияющих на результат, либо таких характеристик очень много и можно рассчитывать на их взаимогашение при случайном характере выборки.