В ислледовании GSS у нас 2 количественных признака. Например, возраст и уровень дохода.
Анализ/корреляции/парные. Выбираем Age и rincom. Галочка на Пирсона и Спирмана. Появились две таблицы. Одна — коэффициент Пирсона, другая — Спирмана. Возраст коррелирует с доходом с коэффициентом — 0,095, это во втором столюце, нижней колонке, значит связь обратная => с возрастом уровень дохода снижается. Но по силе эта связь очень слабая, ее практически нет, она меньше 0,3. Корреляция значима на уровне 0,000 (в той же самой ячейке написано) а значит коэффициент корреляции статистически значим, то есть ситуация со взаимосвязью может быть обнаружена в генеральной совокупности с вероятностью ошибки менее 1%.
У коэффициента Пирсона есть 2 ограничения:
1) он некорректно оценивает взаимосвязь, если в данных имеются выбросы (например в нашей зависимости обратная зависимость получиться могла, потому что там оказалось немного «мажоров», в то время как основное население с возрастом увеличивает уровень дохода). В этом случае корректнее использовать коэффициент Спирмена. А как узнать, есть ли выбросы? Нужно посмотреть на график этих данных. Выбираем пункт меню Графика/ Конструктор диаграм / ОК/ выбираем точечную диаграму «рассеяние-точки», чтоб он каждого человечка в виде точек рисовал / выбираем самый первый «простая диаграмма рассеяния», цепляем этот значок и перетаскиваем в поле для построения графика. Открылось дополнительное окошко. Переменную доход rincom тащим на ось y, а возраст по х / ОК. На графике видим, что никакой взаимосвязи нет, и доход не снижается с возрастом. (нет прямой линии свреху вниз по диагонали) Немного выбросов мы увидели. Однозначно, нужно использовать коэффициент Спирмэна.
|
|
2) Если взаимосвязь между признаками не линейная, то коэффициент корреляции ее не обнаружит. Обнаружить нелинейную связь можно также по графику и если такая ситуация обнаруживается, то лучше анализировать кусочно-линейные модели. Например, на самом деле график зависимости дохода от возраста выглядит так: с 18 до 40 лет доход увеличивается, после 40 снижается.
2 этап. Визуализация взаимосвзяи, то есть построение графика.
Создать / данные / пишем «время на дорогу в университет» и «частота опозданий», обе переменныен количесвтенные, в одном столбце. Першели на вкладку данные. Пишем любые числа. Анализ, таблицы, обе переменные. Спирмэн и Пирсон. График — конструктор диаграмм — точечная. Перенесли точки. Посмотрели график — он нормальный. Значит верим корреляции.
«Перенести результаты на генеральную совокупность» - означает, что наш результат для 10 человек будет таким же и для 1000.