Во время проведения социологического опроса, людям было предложено ответить, какой из трех каналов кабельного телевидения они предпочитают. Среди опрошенных были взрослые мужчины и женщины. Данные сведены в таблицу кросс-табуляции размером 2 х 3. Можно ли сказать, что предпочтение того или иного канала как-то связано с гендерным фактором?
TV 1 | TV 2 | TV 3 | |
Мужчины | |||
Женщины |
Вообще-то визуальный анализ таблицы позволяет предположить, что мужчины больше любят смотреть канал TV 1, а женщины - TV 3. Но как это доказать с помощью результатов статистической обработки? Для этого надо сравнить мужское и женское распределения предпочтений телеканалов.
Доказательство строится по следующему алгоритму.
1. Формулируются статистические гипотезы.
Н0: распределения предпочтений каналов TV у мужчин и у женщин значимо не отличаются от случайных.
Н1: распределения предпочтений каналов TV у мужчин и у женщин значимо отличаются от случайных.
2. В таблице подсчитываются суммы частот по строкам и по столбцам.
|
|
TV 1 | TV 2 | TV 3 | Сумма частот по строкам | |
Мужчины | ||||
Женщины | ||||
Сумма частот по столбцам | Общая сумма частот = 65 |
3. Составляется таблица вычисления эмпирического значения c2 . В первый столбец (fэ) заносятся значения эмпирических частот из предыдущей таблицы. Во втором столбце (f т) – произведения суммы строк на сумму столбцов для соответствующей ячейки деленные на общую сумму частот (в нашем случае – 65). Это так называемые теоретические частоты, то есть, значения, которые могли получиться, если бы не было значимых предпочтений в выборе канала (если бы различия были чисто случайными). Третий столбец содержит результаты вычисления выражений предыдущего столбца. Четвертый - разница эмпирической и теоретической частот. Затем полученные разницы возводятся в квадрат, делятся на значения теоретических частот и суммируются.
4.
f э | f т | f т | f э - f т | (f э - f т )2 | (f э - f т ) 2/ f т |
31*28/65 | 13,35 | 4,65 | 21,59 | 1,62 | |
31*19/65 | 9,06 | 0,94 | 0,88 | 0,10 | |
31*18/65 | 8,58 | -5,58 | 31,19 | 3,63 | |
34*28/65 | 14,65 | -4,65 | 21,59 | 1,47 | |
34*19/65 | 9,94 | -0,94 | 0,88 | 0,09 | |
34*18/65 | 9,42 | 5,58 | 31,19 | 3,31 | |
c2 эмп = 10,22 |
Как и в предыдущем случае, эмпирический показатель рассчитывается по формуле:
4. Определяется степень свободы. Для таблицы кросс-табуляции с числом строк равным двум и более формула выглядит несколько иначе, чем в предыдущем случае:
df = (с – 1) * (l – 1), где с – количество столюцов, а l – количество строк
В нашем случае df = (2-1) * (3-1) = 1 * 2 = 2.
5. При помощи таблицы критических значений сравниваем полученное эмпирическое значение с критическими.
|
|
df | р = 0,1 | р = 0,05 | р = 0,01 | р = 0,001 |
2,706 | 3,842 | 6,635 | 10,829 | |
4,605 | 5,992 | 9,211 | 13,817 | |
6,251 | 7,815 | 11,346 | 16,269 |
Эмпирическое значение (c2 эмп = 10,22) в требуемой строке находится между 9,211 и 13,817. То есть, р-уровень лежит в диапазоне между р = 0,01 и р = 0,001. Таким образом, эмпирическое значение превышает критическое при уровне p ≤ 0,01 (высокая статистическая значимость): c2эмп > c2кр (p ≤ 0,01) H0, Þ Н1! выс. ст. зн. Мы доказали зависимость предпочтения определенных каналов от пола респондента на уровне высокой статистической значимости. Действительно, представители разных полов статистически значимо чаще смотрят разные каналы.