Что такое Репрезентативность, и как с ней бороться

Кратенько повторим то, что нам стало известно. Мы знаем теперь как делается выборка, знаем что она должна быть репрезентативна по как можно большему числу соц.дем. параметров, но только теоретически. Юри совершенно законно задавал вопрос, а как этого добиться практически, так вот, сейчас мы попытаемся найти на него ответ. Но сперва опишем проблему, так как она встает на практике перед медиаисследователями.
Итак, руководитель бригады интервьюеров (бригадир) получает задание, обеспечить опрос по данной анкете такого-то количества мужчин и женщин всех возрастов, и представить заполненные анкеты к такому-то сроку. Вы бригадир. Ваши действия? (Остановитесь пожалуйста и подумайте как бы Вы действовали,прежде чем читать дальше)
Есть много методов получения нужной выборки. Самые распространенные среди них:
1. метод "любителей опросов", (простите господа, я не помню как он называется по классике)
2. маршрутный метод
Суть первого, в некотором районе (обычно берется избирательный участок) проводится акция сплошной безадресной рассылки. Предлагается всем принять участие в социологическом опросе, и заполнить прилагаемую анкету. Затем из откликнувшихся выбираются (случайным образом) домохозяйства с подходящим составом. По выбранным адресам рассылаются интервьюеры, для заполнения анкет (дневников, опросных листов, etc.) результаты сводятся в базу и проверяются на репрезентативность. Если она нарушена, доопрашиваются необходимые респонденты из имеющегося пула согласившихся, (но не все в домохозяйстве, а, допустим, только мужчины старше 40). Обычно, доопрашивать приходится очень не многих. Если домохозяйства выбраны в соответствии с их представленностью (репрезентативностью) в ГС, то отклонения от репрезентативности составляют примерно 1-2 человека на сотню.
Суть маршрутного метода - выбирается некий маршрут в заданном районе (опять же избирательный участок) случайным образом выбирается дом и квартира в которую нужно обратиться, и по этим маршрутам высылаются интервьюеры. Далее как и в первом методе.
Все казалось бы хорошо, но только для разовых и волновых исследований. При непрерывных исследованиях, особенно при панельных, все это работает только при наборе респондентов. В процессе функционирования панели имеет место быть, естественная убыль (т.е. людям свойственно; рождаться, умирать, менять свой социальный статус, жениться/разводиться, ездить в гости к родственникам, ездить на дачу на пару месяцев, в общем жить, не утруждая себя заблаговременным предупреждением об этом социологов). Все эти издержки (с точки зрения социологов) человеческой жизни изрядно портят репрезентативность панели. Самое главное, что их довольно трудно предугадать, да и известно о них становится только "постфактум", когда добирать респондентов уже поздно. Что делать?
Можно набирать чуть больше респондентов, чтобы в случае естественной убыли иметь возможность получить данные с выборки заранее объявленного размера.
Можно! Только, денег жалко. Каждый лишний респондент обходится в определенную сумму, и терять его голос не хочется.
Можно обрезать выборку. Объявлено 3 000 человек, но если реально будет 2998, то на точности это почти никак не скажется. Однако, опять жалко денег.
Выброшенных респондентов-то, тоже опрашивали => тратили деньги. Кроме того, потеря пары респондентов в масштабе такой страны как Россия почти ни чего не значит, а вот для того локального региона, из выборки в котором выбрасывается конкретный респондент, репрезентативность нарушается весьма существенно. Да и потеря в объеме выборки, (а он -один из основных факторов точности конечных результатов) отрицательно влияет на валидность данных для региона.
Вроде бы замкнутый круг! Но тут, вступают в дело математики. Они говорят:
"Если у вас выборка репрезентативна, то один человек из данной соц.дем. группы представляет (репрезентирует) мнение N человек из ГС (где N - целое число).
" А почему именно целое?" Математикам все равно, что целое, что дробное. "А пусть один человек представляет(репрезентирует) N целых, M десятых, человека. Главное, чтобы общая сумма ГС сошлась." Это нормальный ход. Математики правы. Они имеют ввиду, что мнение в каждой соц. дем. группе распределено равномерно.
Лирическое отступление.
Мысль о том, что есть некий средний представитель соц. дем. группы, не нова.
Ее высказали еще лет 70 назад сразу несколько социологов. Правы ли они, нет ли, не нам судить. Придется принять это мнение. Именно на представление о "среднем" мнении соц.дем. группы и зиждутся все дальнейшие расчеты.
По сему, математики предлагают "ремонтировать" выборку. Т.е. присваивать каждому респонденту определенный Вес (коэффициент, на который нужно умножать мнения респондента, для восстановления репрезентативности). Этот процесс называется "взвешивание исходных данных"
Взвешивание - единственный способ восстановления репрезентативности в панельных исследованиях без потери точности. Ясное дело, что это достаточно искусственный способ. И именно тут может " собака порыться". Дело то в том, что способов взвешивания существует, ну, о-о-о-чень много. И от того, какой способ применен, зависят все МД. Это самое узкое место в медиаисследованиях.
Вся беда в том, что весовые коэффициенты можно определять по разному, а самое главное, достаточно неконтролируемо.
Например, самый простой способ, когда численность соц.дем. группы делят на количество имеющихся респондентов из этой группы, а затем говорят, что один респондент представляет мнение стольких то человек, (рейтинг при этом вычисляется как отношение числа ответивших положительно в выборке, умноженных на норму представительства, к объему ГС. Именно отсюда растут ноги неправильного определения рейтинга обсуждавшегося в прошлой лекции.)
Так вот, такой способ довольно сильно задирает рейтинги. В среднем процента на два от величины рейтинга. Кроме того при резкой смене соц.дем. состава (это о TV) рейтинг передачи может испытать заметный всплеск или провал (процентов до 10 от величины рейтинга). Для дневниковой панели (интервалы по 15 минут) это не очень страшно, а вот пиплметры дают полный бред "рейтинг необоснованно скачет".
Но, самое главное, здесь есть лазейка для манипуляций рейтингом. Вот, хотим мы поднять средний рейтинг одного из каналов. Набираем в панель побольше тех кому этот канал нравится (скажем домохозяек), а нарушение репрезентативности, компенсируем взвешиванием. Что получается, по нашему каналу данных с выборки поступает больше, а по остальным, меньше. И пусть эти данные и учитываются с большим весом, но вероятность пропуска передачи выше. Получается что общий рейтинг TV остается на прежнем уровне, но рейтинг нужного нам канала завышается, за счет остальных (был такой вполне реальный случай). Самое смешное, что поймать медиамеристов за руку в этом случае практически невозможно.
Максимум что можно сделать, потребовать матрицу взвешивания, и по ней оценить отклонения от репрезентативности. Если какая-то из соц.дем. групп постоянно лидирует по численности (идет с весом единица), то "это ж-ж-ж не с проста!"
Есть и еще один интересный способ мухлежа. Когда выборка реально репрезентативна допустим только по полу и возрасту, а репрезентативность по другим параметрам подтягивают взвешиванием. Тут вообще может быть все что угодно. И опять же, почти не ловится.
В общем есть одно интересное правило. Если медиаметрист неохотно дает ключевые данные своего исследования, увиливает от вопросов, и вообще слишком много говорит о коммерческой тайне, значит почти наверняка мухлюет.
Допрашивайте его, разбирайтесь как он это делает и предлагайте исправить.
Если не хочет, старайтесь распространить эту информацию как можно шире.
Официально заявляю. Все методики измерений медиа известны давно, абсолютно открыты, и не могут являться объектом коммерческой тайны. Более того, отсутствие данных о методике измерений, является нарушением всех имеющихся в мире соглашений о медиаизмерениях.
Не рейтингом единым.
Мы все время говорили о рейтинге. Это безусловно ключевая величина. Однако, не единственная. Есть и другие медиахарактеристики знание которых порой значительно облегчает жизнь. Мы затронем их несколько позже, когда будем говорить об исследованиях в конкретных медиа. И в следующий раз мы поговорим об измерениях прессы. Это очень обширная тема, поскольку методик там много, (прессу начали измерять первой, еще в начале века), медиахарактеристик тоже хоть отбавляй, а главное, она похоже всех больше всего интересует.