Сравнение эмпирических распределений

Во время проведения социологического опроса, людям было предложено ответить, какой из трех каналов кабельного телевидения они предпочитают. Среди опрошенных были взрослые мужчины и женщины. Данные сведены в таблицу кросс-табуляции размером 2 х 3. Можно ли сказать, что предпочтение того или иного канала как-то связано с гендерным фактором?

	TV 1	TV 2	TV 3
Мужчины
Женщины

Вообще-то визуальный анализ таблицы позволяет предположить, что мужчины больше любят смотреть канал TV 1, а женщины - TV 3. Но как это доказать с помощью результатов статистической обработки? Для этого надо сравнить мужское и женское распределения предпочтений телеканалов.

Доказательство строится по следующему алгоритму.

1. Формулируются статистические гипотезы.

Н₀: распределения предпочтений каналов TV у мужчин и у женщин значимо не отличаются от случайных.

Н₁: распределения предпочтений каналов TV у мужчин и у женщин значимо отличаются от случайных.

2. В таблице подсчитываются суммы частот по строкам и по столбцам.

	TV 1	TV 2	TV 3	Сумма частот по строкам
Мужчины
Женщины
Сумма частот по столбцам				Общая сумма частот = 65

3. Составляется таблица вычисления эмпирического значения c². В первый столбец (f_э) заносятся значения эмпирических частот из предыдущей таблицы. Во втором столбце (f _т) – произведения суммы строк на сумму столбцов для соответствующей ячейки деленные на общую сумму частот (в нашем случае – 65). Это так называемые теоретические частоты, то есть, значения, которые могли получиться, если бы не было значимых предпочтений в выборе канала (если бы различия были чисто случайными). Третий столбец содержит результаты вычисления выражений предыдущего столбца. Четвертый - разница эмпирической и теоретической частот. Затем полученные разницы возводятся в квадрат, делятся на значения теоретических частот и суммируются.

f _э	f _т	f _т	f _э - f _т	(f _э - f _т )²	(f _э - f _т )²/ f _т
	31*28/65	13,35	4,65	21,59	1,62
	31*19/65	9,06	0,94	0,88	0,10
	31*18/65	8,58	-5,58	31,19	3,63
	34*28/65	14,65	-4,65	21,59	1,47
	34*19/65	9,94	-0,94	0,88	0,09
	34*18/65	9,42	5,58	31,19	3,31
					c²_эмп =10,22

Как и в предыдущем случае, эмпирический показатель рассчитывается по формуле:

4. Определяется степень свободы. Для таблицы кросс-табуляции с числом строк равным двум и более формула выглядит несколько иначе, чем в предыдущем случае:

df = (с – 1) * (l – 1), где с – количество столюцов, а l – количество строк

В нашем случае df = (2-1) * (3-1) = 1 * 2 = 2.

5. При помощи таблицы критических значений сравниваем полученное эмпирическое значение с критическими.

df	р = 0,1	р = 0,05	р = 0,01	р = 0,001
	2,706	3,842	6,635	10,829
	4,605	5,992	9,211	13,817
	6,251	7,815	11,346	16,269

Эмпирическое значение (c²_эмп =10,22) в требуемой строке находится между 9,211 и 13,817. То есть, р-уровень лежит в диапазоне между р = 0,01 и р = 0,001. Таким образом, эмпирическое значение превышает критическое при уровне p ≤ 0,01 (высокая статистическая значимость): c²_эмп > c²_кр (p ≤ 0,01) H_0,Þ Н₁! _{выс. ст. зн}. Мы доказали зависимость предпочтения определенных каналов от пола респондента на уровне высокой статистической значимости. Действительно, представители разных полов статистически значимо чаще смотрят разные каналы.