Виды:
1) процентная сводка
2) график
3) обощающие статистики
В SPSS предусмотрено нескольких процедур анализа для таких переменных:
1) частоты,
2) для количественных данных — подходит только гистограмма
3) «статистики» / средняя, медиана, мода в правом окне / минимум, максимум, станлартное отклонение в левом окне.
Sum (сum)% накопленный процент предполагает суммирование всех предыдущих вариантов ответа.
Cum% = 70% и сответствует доходу 31500 руб => 70% имеют доходы до 31500.
50% имеют доходы до 31500, cum% = 50% соответствует медиане. Медиана = 27600.. Половина респондентов имеет доход до 27600, половина больше.
Таблицу лучше полностью в отчет не ставить.
На основании накопленного % можно посчитать коэффициент дифференциации дохода. Он предполагает, что вся совокупность разбивается на 10 равных групп, тогда cum% =10% покажет макс доходы у 10% самых бедных.
90% это минимальные доходы, к 10% самых богатых.
Коэффициент дифференциации доходов Kд = d9/d1
K = 53225/21000=2,53
Минимальные доходы 10%, самых богатых превышают доходы 10 % самых бедных. В 2,53 раз.
|
|
Мода — значение признаков, которые встречаются чаще всего. На моду не стоит полагаться, лучше посмотреть полностью таблицу.
Среднее значение нельзя использовать в анализе без оценки разю=броса значений и без оценки типичности среднего.
Стандартные отклонения — это мера разброса, оно показывает насколько каждый отдельный респондент отличается в среднем от расчитанной ранее средней величины.
Средний доход составляет 33 000 руб., но у каждого отдельного респондента он может отличаться в большую или меньшую сторону, в среднем на 17 000.
Для оценки типичности среднего используют показатель: коэффициент вариации.
Vб=стандартное отклонение / среднее значение*100, разброс значений менбше 33% = > его можно использовать (не большой и средняя хорошо описывает данную совокупность).
Vб = 17000/33000 = 52%
Разброс большой, средняя не корректоно описывает совокупность.
Если средняя не типична для данной совокупности, то в качестве обощенной характеристики используют медиану.
Вторая процедура — анализ описательной статистики, описательные параметры. Эта процедура является кратким вариантом предыдущей процедуры.
Домашнее задание (кейс)
Процедуры исследовать.
Анализ / описательная статистика / разведочный анализ (исследовать).
Эта процедура позволяет рассчитать основные статистики, а ткаже в удобном графическом виде представить структуру данных.
[Количественная переменная] → статистика (описательная статистика, выбросы, процентили) / продолжить / графики (ящичная диаграмма, уровни)
Сравнение средних t-критерий стьюдента
|
|
1. средний чек у постоянных и непостоянных покупателей -
2. производительность труда в зависимости от цеха (5 цехов) -
однофакторный дисперсионный анализ
Процедуры сравнения двух подвыборок (подгрупп) по непараметрическим критериям.
Непараметрические критерии - не требуеют для своего применения типичности средних и нормальности распределения
GSS (в программе SPSS)
А. анализ/непараметрические критерии/для независимых выборок/автоматически сравнить распределение для групп/закладка поля/уровень дохода respondent`s income (rincom) в верхнем окошке/ в нижнем окошке respondent`s sex (sex) / когда выдвигается нулевая гипотеза, надо проверить альтернативную. Критерии, по которым можно проверить — в программе уже подобран — критерий Манна-Уитни, уровень значимочти определен 0,05 (5%) написано что нулевая гипотеза отклоняется, тое сть гипотеза опровергнута, то есть уровень дохода у м и ж существенно различается.
Б. Проверим гипотезу, что уровень дохода различается у людей с разной расой. (rincom/racew). Вывод надо делать так: В процессе анализа проверялась гипотеза о том, что респонденты с различной расовой принадлежностью имеют одинаковый уровень дохода. (гипотеза о том,что уровень дохода мужчин и женщин не отличается). По результатам проверки эта гипотеза была принята по кртиерию Краскала-Уоллиса (отклонена по критерию Манна-Уитни, значит уровень дохода у мужчин и у женщин значимо отличается).
В. Дополнительно к процедуре непарамаетрических критериев, необходимо рассчитать средний доход в каждой подгруппе. Это можно сделать так: меню анализ/сравнение средних/средние/ список зависимых переменных rincom - список независимых переменных — sex и можно сразу же поставить второй признак — race/ смотрим таблицу — всего полторы тысячи респондентов и все ответили на вопрос — и смотрим далее на таблицу с колокнкой «среднее» - в случае м и ж разница большая, в случае с расами — маленькая.
Теперь посмотрим гипотезу различается ли возраст вступления в брак у мужчин и у женщин. (с самого начала,т.е. Как мы делали в случае А.)
Задание (как на контрольной — на ней можно пользоваться тетрадкой): создать массив данных, 30 единиц наблюдения (ID), первая переменная — курс на котором учится студент (1,2,3,4). Вторая переменная — частота пропущенных пар в неделю. Проверить гипотезу, что частота прогулов не зависит от курса обучения (нулевая гипотеза всегда говорит, что различий нет). Шкала входная
Создать/Данные/Имя — курс/Тип — числовая/ Ширина 8/ Метка — курс обучения/ Значения — 1, метка к нему: первый курс, также для 2 и «второй», 3 и «третий»/пропущенный — нет/ шкала порядковая.
Вторая переменная — пропуски — числвая — 8 — число пропущенных занятий — значения ставить не надо.
Теперпь переходим в окошко данные (внизу) — заполняем один столбик данными (мы их придумали). Один столбик — курс. Второй — прогулы.
Этапы анализа:
1. Определим, по какому критерию (параметрическому или непараметрическому) следует проверять данную гипотезу. Применять будем однофакторный дисперсионный анализ (выбирали между ним и непараметрическим критерием — Краскала Уоллиса). Что нужно проверить? У однофакторного дисперсионного анализа такие ограничения: нормальное рапсределение. Надо проверить распределение прогулов на нормальность графическим методом. Как нарисовать график на котором будет кривая нормального распределения? Анализ/описательные статистики/частоты/показать на гистограмме/на гшистограмме смотрим. Линия — нормальное распределение, столбики — сравниваем с ней (то есть столбики должны начинаться с маленьких потом больше больше больше и снова меньше меньше меньше — это будет считаться нормальной. Иначе — не будет). Если есть небольшие отклонения — это нормально, но надо посмотреть другие ограничения, например коэффициент вариации. Проверим типичность средней величины для всего распределения и в каждой подгруппе. Анализ/Сравнение средних/Средние. Поставим количество пропущенных переменных в список и нажмем ок. Нам выдано среднее и стандартное отклонение. Посчитаем коэффициент вариации. Сначала надо было сделать без курса чтобы посмотреть в целом рпо выблорке.
|
|
Стд отклонение делим на среднее и получаем кожффициент вариации. Если оно 33 % или меньше — оно бы подходило.
По всей совокупности студентов коэффициент вариации составляет 1,12, т.е. 112%, то есть среднее значение нетипично для данной совокупности, в дальнейшем анализе его использовать нельзя.
Теперь сделаем тоже самое, только по курсам. (в нижнее окошко ставим курс). Теперь надо проверить отношение стд отклонения к среднему и оно должно составить треть от него (также как и в тот раз проверяем коэффициент вариации, только по каждой строчке — но можно посмотреть на глаз составляет ли последняя колонка треть от первой и не считать каждую строчку).
Вывод: результаты проверки на нормальность распределения и типичность средней величины указывают на необходимость применения критерия непараметрического кртиерия Краскалла-Уоллиса.
Применяем его так: анализ\непараметрические критерии\для независимых выборок. Гипотеза принимается. Табличку вставляем в отчет и говорим, результаты анализа показали, что частота прогулов не зависит от курса обучения.