Описательные статистики для качественных переменных

1 2 3 4 5 6

Виды:

1) процентная сводка

2) график

3) обощающие статистики

В SPSS предусмотрено нескольких процедур анализа для таких переменных:

1) частоты,

2) для количественных данных — подходит только гистограмма

3) «статистики» / средняя, медиана, мода в правом окне / минимум, максимум, станлартное отклонение в левом окне.

Sum (сum)% накопленный процент предполагает суммирование всех предыдущих вариантов ответа.

Cum% = 70% и сответствует доходу 31500 руб => 70% имеют доходы до 31500.

50% имеют доходы до 31500, cum% = 50% соответствует медиане. Медиана = 27600.. Половина респондентов имеет доход до 27600, половина больше.

Таблицу лучше полностью в отчет не ставить.

На основании накопленного % можно посчитать коэффициент дифференциации дохода. Он предполагает, что вся совокупность разбивается на 10 равных групп, тогда cum% =10% покажет макс доходы у 10% самых бедных.

90% это минимальные доходы, к 10% самых богатых.

Коэффициент дифференциации доходов Kд = d9/d1

K = 53225/21000=2,53

Минимальные доходы 10%, самых богатых превышают доходы 10 % самых бедных. В 2,53 раз.

Мода — значение признаков, которые встречаются чаще всего. На моду не стоит полагаться, лучше посмотреть полностью таблицу.

Среднее значение нельзя использовать в анализе без оценки разю=броса значений и без оценки типичности среднего.

Стандартные отклонения — это мера разброса, оно показывает насколько каждый отдельный респондент отличается в среднем от расчитанной ранее средней величины.

Средний доход составляет 33 000 руб., но у каждого отдельного респондента он может отличаться в большую или меньшую сторону, в среднем на 17 000.

Для оценки типичности среднего используют показатель: коэффициент вариации.

V_б=стандартное отклонение / среднее значение*100, разброс значений менбше 33% = > его можно использовать (не большой и средняя хорошо описывает данную совокупность).

V_б = 17000/33000 = 52%

Разброс большой, средняя не корректоно описывает совокупность.

Если средняя не типична для данной совокупности, то в качестве обощенной характеристики используют медиану.

Вторая процедура — анализ описательной статистики, описательные параметры. Эта процедура является кратким вариантом предыдущей процедуры.

Домашнее задание (кейс)

Процедуры исследовать.

Анализ / описательная статистика / разведочный анализ (исследовать).

Эта процедура позволяет рассчитать основные статистики, а ткаже в удобном графическом виде представить структуру данных.

[Количественная переменная] → статистика (описательная статистика, выбросы, процентили) / продолжить / графики (ящичная диаграмма, уровни)

Сравнение средних t-критерий стьюдента

1. средний чек у постоянных и непостоянных покупателей -

2. производительность труда в зависимости от цеха (5 цехов) -

однофакторный дисперсионный анализ

Процедуры сравнения двух подвыборок (подгрупп) по непараметрическим критериям.

Непараметрические критерии - не требуеют для своего применения типичности средних и нормальности распределения

GSS (в программе SPSS)

А. анализ/непараметрические критерии/для независимых выборок/автоматически сравнить распределение для групп/закладка поля/уровень дохода respondent`s income (rincom) в верхнем окошке/ в нижнем окошке respondent`s sex (sex) / когда выдвигается нулевая гипотеза, надо проверить альтернативную. Критерии, по которым можно проверить — в программе уже подобран — критерий Манна-Уитни, уровень значимочти определен 0,05 (5%) написано что нулевая гипотеза отклоняется, тое сть гипотеза опровергнута, то есть уровень дохода у м и ж существенно различается.

Б. Проверим гипотезу, что уровень дохода различается у людей с разной расой. (rincom/racew). Вывод надо делать так: В процессе анализа проверялась гипотеза о том, что респонденты с различной расовой принадлежностью имеют одинаковый уровень дохода. (гипотеза о том,что уровень дохода мужчин и женщин не отличается). По результатам проверки эта гипотеза была принята по кртиерию Краскала-Уоллиса (отклонена по критерию Манна-Уитни, значит уровень дохода у мужчин и у женщин значимо отличается).

В. Дополнительно к процедуре непарамаетрических критериев, необходимо рассчитать средний доход в каждой подгруппе. Это можно сделать так: меню анализ/сравнение средних/средние/ список зависимых переменных rincom - список независимых переменных — sex и можно сразу же поставить второй признак — race/ смотрим таблицу — всего полторы тысячи респондентов и все ответили на вопрос — и смотрим далее на таблицу с колокнкой «среднее» - в случае м и ж разница большая, в случае с расами — маленькая.

Теперь посмотрим гипотезу различается ли возраст вступления в брак у мужчин и у женщин. (с самого начала,т.е. Как мы делали в случае А.)

Задание (как на контрольной — на ней можно пользоваться тетрадкой): создать массив данных, 30 единиц наблюдения (ID), первая переменная — курс на котором учится студент (1,2,3,4). Вторая переменная — частота пропущенных пар в неделю. Проверить гипотезу, что частота прогулов не зависит от курса обучения (нулевая гипотеза всегда говорит, что различий нет). Шкала входная

Создать/Данные/Имя — курс/Тип — числовая/ Ширина 8/ Метка — курс обучения/ Значения — 1, метка к нему: первый курс, также для 2 и «второй», 3 и «третий»/пропущенный — нет/ шкала порядковая.

Вторая переменная — пропуски — числвая — 8 — число пропущенных занятий — значения ставить не надо.

Теперпь переходим в окошко данные (внизу) — заполняем один столбик данными (мы их придумали). Один столбик — курс. Второй — прогулы.

Этапы анализа:

1. Определим, по какому критерию (параметрическому или непараметрическому) следует проверять данную гипотезу. Применять будем однофакторный дисперсионный анализ (выбирали между ним и непараметрическим критерием — Краскала Уоллиса). Что нужно проверить? У однофакторного дисперсионного анализа такие ограничения: нормальное рапсределение. Надо проверить распределение прогулов на нормальность графическим методом. Как нарисовать график на котором будет кривая нормального распределения? Анализ/описательные статистики/частоты/показать на гистограмме/на гшистограмме смотрим. Линия — нормальное распределение, столбики — сравниваем с ней (то есть столбики должны начинаться с маленьких потом больше больше больше и снова меньше меньше меньше — это будет считаться нормальной. Иначе — не будет). Если есть небольшие отклонения — это нормально, но надо посмотреть другие ограничения, например коэффициент вариации. Проверим типичность средней величины для всего распределения и в каждой подгруппе. Анализ/Сравнение средних/Средние. Поставим количество пропущенных переменных в список и нажмем ок. Нам выдано среднее и стандартное отклонение. Посчитаем коэффициент вариации. Сначала надо было сделать без курса чтобы посмотреть в целом рпо выблорке.

Стд отклонение делим на среднее и получаем кожффициент вариации. Если оно 33 % или меньше — оно бы подходило.

По всей совокупности студентов коэффициент вариации составляет 1,12, т.е. 112%, то есть среднее значение нетипично для данной совокупности, в дальнейшем анализе его использовать нельзя.

Теперь сделаем тоже самое, только по курсам. (в нижнее окошко ставим курс). Теперь надо проверить отношение стд отклонения к среднему и оно должно составить треть от него (также как и в тот раз проверяем коэффициент вариации, только по каждой строчке — но можно посмотреть на глаз составляет ли последняя колонка треть от первой и не считать каждую строчку).

Вывод: результаты проверки на нормальность распределения и типичность средней величины указывают на необходимость применения критерия непараметрического кртиерия Краскалла-Уоллиса.

Применяем его так: анализ\непараметрические критерии\для независимых выборок. Гипотеза принимается. Табличку вставляем в отчет и говорим, результаты анализа показали, что частота прогулов не зависит от курса обучения.

1 2 3 4 5 6

Подборка статей по вашей теме: