Статистические распределения рядов признаков-факторов и результирующего признака

1 2 3 4

Оглавление

Введение

Формирование исходной выборки

Статистические распределения рядов признаков-факторов и результирующего признака

Проверка однородности и нормальности

Вывод зависимостей результирующего-признака от факторов-признаков

Группировка

Определение доверительного интервала

Вычисление линейных коэффициентов корреляции, вывод уравнения регрессии

Заключение

Список источников

Введение

Целью данной работы является статистическое исследование взаимосвязей стоимости автомобиля марки «Хонда-Сивик» с факторными признаками: пробегом и временем эксплуатации; а также, на основании исследования выявления первичных факторов, влияющих на стоимость и вывод зависимости целевого параметра(стоимости) от первичного фактора.

Для построения исходной выборки был выбран сайт www.auto.ru.

Формирование исходной выборки

Используя сайт auto.ru проводим выборочное исследование 50 автомобилей марки Хонда-Сивик.

Исследуемые признаки:

Y ‑ цена автомобиля, тыс.руб.;

Х1 ‑ время эксплуатации, лет;

Х2 ‑ пробег, тыс. км.

№ п/п	Марка	Y	Х₁	Х₂
1	Civic VII	379	5	121
2	Civic VII	399	4	74
3	Civic VII	429	4	88
4	Civic VII	393	3	95
5	Civic VII	397	3	60
6	Civic VII	430	3	54
7	Civic VII	459	3	46
8	Civic VIII	455	2	107
9	Civic VIII	467	2	47
10	Civic VIII	468	2	97
11	Civic VIII	552	2	60
12	Civic VIII	565	2	41
13	Civic VIII	570	2	57
14	Civic VIII	579	2	30
15	Civic VIII	597	2	150
16	Civic VIII	441	1	75
17	Civic VIII	466	1	30
18	Civic VIII	500	1	15
19	Civic VIII	524	1	26
20	Civic VIII	530	1	22
21	Civic VIII	539	1	32
22	Civic VIII	555	1	62
23	Civic VIII	560	1	14
24	Civic VIII	575	1	30
25	Civic VIII	575	1	88
26	Civic VIII	600	1	18
27	Civic VIII	600	1	18
28	Civic VIII	615	1	40
29	Civic VIII	680	1	14
30	Civic VIII	510	0	18
31	Civic VIII	533	0	0
32	Civic VIII	533	0	0
33	Civic VIII	541	0	0
34	Civic VIII	541	0	0
35	Civic VIII	561	0	0
36	Civic VIII	570	0	29
37	Civic VIII	585	0	0
38	Civic VIII	590	0	0
39	Civic VIII	606	0	0
40	Civic VIII	616	0	0
41	Civic VIII	640	0	0
42	Civic VIII	640	0	0
43	Civic VIII	640	0	0
44	Civic VIII	643	0	0
45	Civic VIII	650	0	10
46	Civic VIII	650	0	0
47	Civic VIII	661	0	0
48	Civic VIII	661	0	0
49	Civic VIII	683	0	0
50	Civic VIII	600	0	13

Статистические распределения рядов признаков-факторов и результирующего признака

Исследуем статистическое распределение признаков Х₁ с помощью интервального вариационного ряда:

Интервальный ряд для Х ₁
Х ₁	F ₁	Ср. цена тыс.руб.
0-1	21	603
1-2	14	554
2-3	8	532
3-4	4	420
4-5	2	414
5-6	1	379

Приведем графическое отображение ряда для Х₁ в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X₁. Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

Мода – это наиболее часто встречающееся значение признака. Для интервального ряда мода определяется по формуле:

где – значение моды;

X₀ – нижняя граница модального интервала;

h – величина модального интервала (1 год);

– частота модального интервала;

– частота интервала, предшествующая модальному;

– частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X1 наибольшее значение частоты равно 21, т.е. это будет интервал 0 лет , тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

т.к. медиана с дробным номером не бывает, то полученный результат указывает, что медиана находится между 25-й и 26-й величинами совокупности.

Значение медианы можно определить по формуле:

где – значение медианы;

– нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

- частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 1 года до 2-х лет , тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где – дисперсия;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Среднее квадратическое отклонение вычислим по следующей формуле:

где – дисперсия;

– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где – коэффициент вариации;

– среднее квадратическое отклонение;

- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где ;

– коэффициент ассиметрии;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где

- коэффициент эксцесса;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Исследуем статистическое распределение признаков Х₂ с помощью интервального вариационного ряда.

Для построения ряда распределения необходимо определить число групп и величину интервала. Для определения числа групп воспользуемся формулой Стерджесса:

гдеm – число групп (всегда целое);

n – число единиц в выборке, в нашем случае n= 50.

Вычислим m:

Величину интервала определим по формуле:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

На основании полученных данных построим интервальный ряд для Х₂:

Интервальный ряд для Х ₂
Х ₂	F ₂	Ср. цена тыс.руб.
0 - 21	25	601
21 - 42	9	551
42 - 63	7	490
63 - 84	2	420
84 - 105	4	466
105 - 126	2	417
126 - 150	1	597

Приведем графическое отображение ряда для Х₂ в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для X₂. Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

где – значение моды;

– нижняя граница модального интервала;

h – величина модального интервала (1 год);

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда X₁ наибольшее значение частоты равно 25, т.е. это будет интервал 0 до 21 тыс. км., тогда значение моды:

Медиана – значение признака, лежащее в середине упорядоченного ряда распределения.

Номер медианы определяется по формуле:

где

n – число единиц в совокупности

Значение медианы можно определить по формуле:

где – значение медианы;

– нижняя граница медианного интервала;

- номер медианы;

- накопленная частота интервала, предшествующая медианному;

- частота медианного интервала.

По накопленной частоте определяем, что медиана будет находиться в интервале от 21 до 42 тыс. км., тогда значение медианы:

Для вычисления дисперсии воспользуемся следующей формулой:

где – дисперсия;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Среднее квадратическое отклонение вычислим по следующей формуле:

где – дисперсия;

– среднее квадратическое отклонение;

Вычислим коэффициент вариации

где – коэффициент вариации;

– среднее квадратическое отклонение;

- среднее по ряду распределения.

Вычислим значения коэффициента ассиметрии:

где

– коэффициент ассиметрии

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Вычислим значения коэффициента эксцесса:

где ;

- коэффициент эксцесса;

– среднее квадратическое отклонение;

– среднее по i-му интервалу;

– среднее по ряду распределения;

– частота i-го интервала;

n – размер выборки (n=50).

Исследуем статистическое распределение признаков Y с помощью интервального вариационного ряда.

Величину интервала определим по формуле, используя полученное ранее значение m:

где Хmax – максимальное значение признака;

Хmin - минимальное значение признака;

m – число групп.

На основании полученных данных построим интервальный ряд для Y:

Интервальный ряд для Y
Y	F_y	Ср. цена тыс.руб.
379 - 422	4	400,5
422 - 465	5	443,5
465 - 508	4	486,5
508 - 551	8	529,5
551 - 594	12	572,5
594 - 637	7	615,5
637 - 683	10	660

Приведем графическое отображение ряда для Y в виде гистограммы и кумуляты:

Вычислим среднюю арифметическую, моду и медиану интервального ряда распределения для Y. Формула для вычисления среднего арифметического:

где – средняя по ряду распределения;

– средняя по i-му интервалу;

– частота i-го интервала (число автомобилей в интервале).

где – значение моды;

Y₀ – нижняя граница модального интервала;

h– величина модального интервала;

- частота модального интервала;

- частота интервала, предшествующая модальному;

- частота послемодального интервала.

Модальный интервал определяется по наибольшей частоте. Для ряда Y наибольшее значение частоты равно 12, т.е. это будет интервал 551-594, тогда значение моды: